[发明专利]一种语义相关性检索模型的确定方法及装置在审

申请号：	202210366504.X	申请日：	2022-04-08
公开（公告）号：	CN114722149A	公开（公告）日：	2022-07-08
发明（设计）人：	张志钢	申请（专利权）人：	北京奇艺世纪科技有限公司
主分类号：	G06F16/33	分类号：	G06F16/33;G06F40/30;G06K9/62;G06N5/02
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	王宝筠
地址：	100080 北京市海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语义相关性检索模型确定方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种语义相关性检索模型的确定方法，其特征在于，所述方法包括：

构建由目标检索词和检索结果组成的预训练语料；

通过对所述预训练语料进行整词遮盖处理，获得预训练样本；

根据所述预训练样本对初始语言模型进行预训练，基于对所述预训练样本中被遮盖部分的预测结果与所述被遮盖部分之间的差异对所述初始语言模型进行参数调整；

调整完成预训练的所述初始语言模型得到语义相关性的初始检索模型；

获取包括样本标签的训练样本；所述训练样本的样本标签用于标识所述训练样本中的检索词和检索结果的相关性；

根据所述训练样本对所述初始检索模型进行训练，根据对所述训练样本的训练结果和所述训练样本的样本标签之间的差异对所述初始检索模型进行参数调整，获得语义相关性的目标检索模型。

2.根据权利要求1所述的方法，其特征在于，所述训练样本包括第一训练样本和第二训练样本；所述第一训练样本为标注样本和后验样本中的一类样本，所述第二训练样本为所述标注样本和所述后验样本中除了所述第一训练样本的另一类样本；

则，所述根据所述训练样本对所述初始检索模型进行训练，根据对所述训练样本的训练结果和所述训练样本的样本标签之间的差异对所述初始检索模型进行参数调整，获得语义相关性的目标检索模型，包括：

根据所述第一训练样本对所述初始检索模型进行训练，根据对所述第一训练样本的训练结果和所述第一训练样本的样本标签之间的差异对所述初始检索模型进行参数调整，获得语义相关性的第一目标检索模型；

根据所述第二训练样本对所述第一目标检索模型进行训练，根据对所述第二训练样本的检测结果和所述第二训练样本的样本标签之间的差异对所述第一目标检索模型进行参数调整，获得语义相关性的第二目标检索模型；

将所述第二目标检索模型作为所述语义相关性的目标检索模型。

3.根据权利要求2所述的方法，其特征在于，所述标注样本为包括标注了样本标签的数据，所述标注样本的样本标签用于标识所述标注样本中的检索词和检索结果的相关性；所述后验样本由包括样本标签的正例样本和负例样本组成，所述正例样本的样本标签用于标识所述正例样本中的检索结果与目标检索词相关，所述负例样本的样本标签用于标识所述负例样本中的检索结果与所述目标检索词不相关。

4.根据权利要求3所述的方法，其特征在于，所述后验样本通过如下方式构建：

获取所述目标检索词的检索结果；

基于所述检索结果中点击率大于预设阈值的检索结果构建所述正例样本；

基于所述检索结果中点击率小于或等于所述预设阈值的检索结果构建所述负例样本。

5.根据权利要求4所述的方法，其特征在于，所述基于所述检索结果中点击率小于或等于所述预设阈值的检索结果构建所述负例样本，包括：

确定与所述目标检索词相似度大于预设相似度的待定检索词；

根据所述待定检索词的检索结果构建所述负例样本。

6.根据权利要求4所述的方法，其特征在于，所述标注样本、所述正例样本和所述负例样本均采用三元组格式，表示样本中的检索词、检索结果以及样本标签。

7.根据权利要求1所述的方法，其特征在于，在所述获得语义相关性的目标检索模型之后，还包括：

基于模型压缩对所述目标检索模型进行加速优化处理。

8.根据权利要求7所述的方法，其特征在于，所述基于模型压缩对所述目标检索模型进行处理加速优化，包括：

基于模型蒸馏、模型量化或模型剪枝对所述目标模型进行加速优化处理。