[发明专利]数据处理方法和装置有效
| 申请号: | 201911301818.6 | 申请日: | 2019-12-17 |
| 公开(公告)号: | CN111026849B | 公开(公告)日: | 2023-09-19 |
| 发明(设计)人: | 曹宇慧;冯仕堃;何径舟 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06N20/00 |
| 代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数据处理 方法 装置 | ||
本申请实施例公开了数据处理方法和装置。该方法的一具体实施方式包括:获取样本集;将该样本集中的目标样本输入待训练的自然语言处理模型,得到从该待训练的自然语言处理模型输出的、与该目标样本对应的向量;将该向量输入该全连接层,得到该目标样本中的查询词和标题样本之间的相关度;基于该目标样本中的查询词和标题样本之间的相关度,确定该目标样本的损失值,并基于该损失值训练该待训练的自然语言处理模型,得到训练后的自然语言处理模型。本申请实施例提供的方案能够训练出可以预测查询词和标题之间的相关度的自然语言处理模型,从而提高了获取相关度的效率和准确度。
技术领域
本申请实施例涉及计算机技术领域,具体涉及互联网技术领域,尤其涉及数据处理方法和装置。
背景技术
随着互联网的发展,越来越多的用户开始使用终端设备在互联网上搜索各种信息。用户在搜索时,通常会输入查询词,搜索网站则会针对该查询词反馈搜索到的信息条目。
通常情况下,为了能够清楚地展示出信息条目,在信息条目显示的过程中,会显示标题,还会显示详细信息。
发明内容
本申请实施例提出了数据处理方法和装置。
第一方面,本申请实施例提供了一种数据处理方法,包括:获取样本集,其中,样本集中的样本包括查询词、标题样本,查询词和标题样本存在标注,标注指示查询词与标题样本之间的相关度;将样本集中的目标样本输入待训练的自然语言处理模型,得到从待训练的自然语言处理模型输出的、与目标样本对应的向量;将向量输入全连接层,得到目标样本中的查询词和标题样本之间的相关度;基于目标样本中的查询词和标题样本之间的相关度,确定目标样本的损失值,并基于损失值训练待训练的自然语言处理模型,得到训练后的自然语言处理模型。
在一些实施例中,样本集中的样本所包括的标题样本为标题样本对,标题样本对包括正标题样本和负标题样本,在同一个样本中的标注包括针对同一个查询词的两个标注数值,正标题样本的标注数值大于负标题样本的标注数值。
在一些实施例中,将样本集中的目标样本输入待训练的自然语言处理模型,得到从待训练的自然语言处理模型输出的、与目标样本对应的向量,包括:将样本集中的目标样本中的正标题样本和查询词,输入待训练的自然语言处理模型,以及将目标样本中的负标题样本和查询词,输入待训练的自然语言处理模型;得到从待训练的自然语言处理模型输出的、与正标题样本对应的向量,并得到从待训练的自然语言处理模型输出的、与负标题样本对应的向量。
在一些实施例中,将向量输入全连接层,得到目标样本中的查询词和标题样本之间的相关度,包括:将与正标题样本对应的向量输入全连接层,得到目标样本中的正标题样本与查询词之间的相关度;将与负标题样本对应的向量输入全连接层,得到目标样本中的负正标题样本与查询词之间的相关度;以及基于目标样本中的查询词和标题样本之间的相关度,确定目标样本的损失值,包括:基于正标题样本与查询词之间的相关度、负正标题样本与查询词之间的相关度,以及预设边界损失值确定目标样本的损失值。
在一些实施例中,样本集中的标注包括至少三个标注数值。
在一些实施例中,自然语言处理模型为知识增强语义表示模型;样本集中,存在预设样本,预设样本的标题样本包括至少一个用于替换实体词的指定标识。
第二方面,本申请实施例提供了一种数据处理装置,包括:获取单元,被配置成获取样本集,其中,样本集中的样本包括查询词、标题样本,查询词和标题样本存在标注,标注指示查询词与标题样本之间的相关度;输入单元,被配置成将样本集中的目标样本输入待训练的自然语言处理模型,得到从待训练的自然语言处理模型输出的、与目标样本对应的向量;全连接单元,被配置成将向量输入全连接层,得到目标样本中的查询词和标题样本之间的相关度;确定单元,被配置成基于目标样本中的查询词和标题样本之间的相关度,确定目标样本的损失值,并基于损失值训练待训练的自然语言处理模型,得到训练后的自然语言处理模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911301818.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种紧凑型波导双向耦合器
- 下一篇:一种包装盒的内衬成型机构





