[发明专利]语言模型的预训练方法、装置、设备和存储介质在审

申请号：	202111162206.0	申请日：	2021-09-30
公开（公告）号：	CN113902005A	公开（公告）日：	2022-01-07
发明（设计）人：	施云生;黄正杰;刘佳祥;冯仕堃;黄世维;何径舟	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/04;G06N3/08
代理公司：	北京清亦华知识产权代理事务所(普通合伙) 11201	代理人：	罗岚
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语言模型训练方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种语言模型的预训练方法、装置、设备和存储介质，涉及计算机技术领域，尤其涉及深度学习及自然语言处理领域。具体实现方案为：根据搜索词、搜索结果和历史行为日志，构建语义图，并对语义图进行采样，生成第一文本序列；对第一文本序列中的第一文本进行掩码处理，得到第二文本序列，并通过初始模型之中编码器对第二文本序列中第二文本进行编码，生成第二文本的第一语义表征；将第一语义表征输入至初始模型之中图聚合模块，获得第二文本的第二语义表征；对第二语义表征进行掩码预测，获得第二文本中掩盖词的预测值，并根据掩盖词的预测值和真实值，确定损失函数；根据损失函数，对初始模型进行预训练，得到语言模型。

技术领域

本申请涉及计算机技术领域，进一步涉及深度学习及自然语言处理领域，尤其涉及一种语言模型的预训练方法、装置、设备和存储介质。

背景技术

在搜索、广告召回、新闻推送等场景中，往往需要向用户展示相关度更高的搜索结果或者用户更感兴趣的新闻推送。例如，利用语言模型对用户输入的搜索词进行语义表征，以得到所述搜索词的语义表征向量，计算所述搜索词的语义表征向量与搜索结果的特征向量间的相似度，将相似度满足预设条件的搜索结果展现给用户。可以看出，为了能够获得相关度更高的搜索结果或者用户更感兴趣的新闻推送，关键是提升语言模型的语义表征能力。因此，如何提升语言模型的语义表征能力，已经成为一个重要的研究方向。

发明内容

本申请提供了一种语言模型的预训练方法、装置、设备和存储介质。

根据本申请的第一方面，提供了一种语言模型的训练方法，包括：

根据搜索词、搜索结果和历史行为日志，构建语义图，并对语义图进行采样，生成第一文本序列；

对第一文本序列中的第一文本进行掩码处理，得到第二文本序列，并通过初始模型之中编码器对第二文本序列中第二文本进行编码，生成第二文本的第一语义表征；

将第一语义表征输入至初始模型之中图聚合模块，获得第二文本的第二语义表征；

对第二语义表征进行掩码预测，获得第二文本中掩盖词的预测值，并根据掩盖词的预测值和真实值，确定损失函数；

根据损失函数，对初始模型进行预训练，得到语言模型。

根据本申请的第二方面，提供了一种目标任务场景下神经网络建模方法，包括：

获取目标任务场景的训练样本；

根据训练样本对神经网络进行训练，得到适用于目标任务的神经网络模型。

根据本申请的第三方面，提供了一种语言模型的预训练装置，包括：