[发明专利]文本编码模型的训练方法、信息检索方法及设备在审

专利信息
申请号: 202110572323.8 申请日: 2021-05-25
公开(公告)号: CN113761124A 公开(公告)日: 2021-12-07
发明(设计)人: 欧子菁;赵瑞辉 申请(专利权)人: 腾讯科技(深圳)有限公司
主分类号: G06F16/33 分类号: G06F16/33;G06F40/126;G06F40/30
代理公司: 北京三高永信知识产权代理有限责任公司 11138 代理人: 张所明
地址: 518057 广东省深圳*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 编码 模型 训练 方法 信息 检索 设备
【说明书】:

本申请实施例公开了一种文本编码模型的训练方法、信息检索方法及设备,属于机器学习技术领域。该方法包括:将文本关系网络中的样本文本输入文本编码模型,得到各个样本文本对应的样本特征向量;基于样本特征向量以及目标函数确定模型损失;基于模型损失对文本编码模型进行迭代训练。响应于文本检索操作,基于文本检索操作获取检索信息;将检索信息输入文本编码模型,得到检索信息对应的检索信息特征向量;基于检索信息特征向量从文本库中确定目标文本;通过检索结果展示界面显示目标文本。基于样本文本的网络关系进行建模,同时在文本关系网络的网络边稀疏、噪声较多的情况下,模型也能够通过捕捉文本本身的语义信息得到较为准确的向量表示。

技术领域

本申请实施例涉及机器学习技术领域,特别涉及一种文本编码模型的训练方法、信息检索方法及设备。

背景技术

信息检索是日常生活中使用较为频繁的操作,例如论文检索、新闻检索以及医疗咨询检索等。用户在检索框中输入关键词或关键句,终端依据文档搜索规则从文档库中检索出与关键词或关键句相关的内容,并显示检索结果供用户查看。

相关技术通常是将用户输入的文本内容编码成一个连续型向量,然后利用模型计算其与文档库中各个文档的向量表示之间的相似度,进而基于向量距离确定检索结果。对于模型的训练过程,相关技术采用对比学习的方式构建模型,并利用正负样本最大化似然函数。

然而,上述对比式学习更注重文本网络中各个节点之间的关系,当文本网络边较为稀疏、边噪声较大时,模型性能会下降;并且该方法需要正样本之间的向量内积尽可能大,负样本之间的向量内积尽可能小,若不能恰当地选取负样本,则会对模型性能有较大负面影响。

发明内容

本申请实施例提供了一种文本编码模型的训练方法、信息检索方法及设备,能够提高文本编码模型的文本编码性能,提高信息检索准确率。所述技术方案如下:

一方面,本申请实施例提供了一种文本编码模型的训练方法,所述方法包括:

将文本关系网络中的样本文本输入文本编码模型,得到各个样本文本对应的样本特征向量,所述文本关系网络是以所述样本文本为节点,以邻居节点之间的连线为边的无向图,所述邻居节点之间具有相同的文本属性;

基于所述样本特征向量以及目标函数确定模型损失,所述目标函数包含第一函数项和第二函数项,所述第一函数项用于表征所述样本特征向量对所述样本文本中语义信息的表示质量,所述第二函数项用于表征所述样本特征向量之间的相关性对所述文本关系网络的模拟质量;

基于所述模型损失对所述文本编码模型进行迭代训练。

另一方面,本申请实施例提供了一种信息检索方法,所述方法包括:

响应于文本检索操作,基于所述文本检索操作获取检索信息;

将所述检索信息输入文本编码模型,得到所述检索信息对应的检索信息特征向量,所述文本编码模型是以目标函数为训练目标,基于文本关系网络训练得到的模型,所述文本关系网络是以文本为节点,以文本之间的关系为边的无向图,所述目标函数包含第一函数项和第二函数项,所述第一函数项用于表征样本特征向量对样本文本中语义信息的表示质量,所述第二函数项用于表征所述样本特征向量之间的相关性对所述文本关系网络的模拟质量;

基于所述检索信息特征向量从文本库中确定目标文本,所述目标文本是与所述检索信息之间存在相关性的文本;

通过检索结果展示界面显示所述目标文本。

另一方面,本申请实施例提供了一种文本编码模型的训练装置,所述装置包括:

第一输入模块,用于将文本关系网络中的样本文本输入文本编码模型,得到各个样本文本对应的样本特征向量,所述文本关系网络是以所述样本文本为节点,以邻居节点之间的连线为边的无向图,所述邻居节点之间具有相同的文本属性;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110572323.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top