[发明专利]文本处理方法、装置及存储介质有效
申请号: | 201911032610.9 | 申请日: | 2019-10-28 |
公开(公告)号: | CN110750987B | 公开(公告)日: | 2021-02-05 |
发明(设计)人: | 李快 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F16/35 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 刘晖铭;张颖玲 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 装置 存储 介质 | ||
1.一种文本处理方法,其特征在于,包括:
获取待处理文本和所述待处理文本的标签;
根据所述标签,采用文本特征提取网络模型分别对所述待处理文本的第一部分和所述待处理文本的第二部分进行特征提取,对应得到第一词向量和第二词向量;
其中,所述文本特征提取网络模型通过以下步骤训练得到:将样本数据的第一部分和所述样本数据的第二部分分别输入至BERT网络模型中,对应得到第三词向量和第四词向量;将所述第三词向量与所述第四词向量输入至预设损失模型中,通过所述预设损失模型中的损失函数,确定所述第三词向量与所述第四词向量之间的距离;根据所述第三词向量与所述第四词向量之间的距离,确定所述样本数据的第一部分与所述样本数据的第二部分之间的匹配度,得到损失结果;根据所述损失结果,对所述BERT网络模型进行修正,得到所述文本特征提取网络模型;
确定所述第一词向量和所述第二词向量之间的距离;
根据所述第一词向量和所述第二词向量之间的距离,确定所述待处理文本的第一部分与所述待处理文本的第二部分之间的匹配度。
2.根据权利要求1所述的方法,其特征在于,所述待处理文本的第一部分为所述待处理文本的标题,所述待处理文本的第二部分为所述待处理文本中除所述标题之外的其他部分;
对应地,根据所述标签,分别对所述待处理文本的标题部分和其他部分进行特征提取,对应得到第一词向量和第二词向量;
确定所述第一词向量和所述第二词向量之间的距离;
根据所述距离,确定所述标题部分与所述其他部分之间的匹配度。
3.根据权利要求1所述的方法,其特征在于,所述BERT网络模型包括第一BERT网络模型和第二BERT网络模型;所述将样本数据的第一部分和所述样本数据的第二部分分别输入至BERT网络模型中,对应得到第三词向量和第四词向量,包括:
分别将所述样本数据的第一部分和所述样本数据的第二部分对应输入至所述第一BERT网络模型和所述第二BERT网络模型中;
通过所述第一BERT网络模型对所述样本数据的第一部分进行特征提取,得到所述第三词向量;
通过所述第二BERT网络模型对所述样本数据的第二部分进行特征提取,得到所述第四词向量。
4.根据权利要求1所述的方法,其特征在于,所述根据所述损失结果,对所述BERT网络模型进行修正,得到所述文本特征提取网络模型,包括:
当所述损失结果表明所述第三词向量和所述第四词向量之间的距离大于阈值时,确定所述文本特征提取网络模型对应的文本处理模型给出的处理结果是否正确;
如果所述处理结果正确,不对所述BERT网络模型进行修正,或者,根据所述距离对所述BERT网络模型进行微调;
如果所述处理结果不正确,根据所述距离对所述BERT网络模型进行修正。
5.根据权利要求1所述的方法,其特征在于,所述根据所述损失结果,对所述BERT网络模型进行修正,得到所述文本特征提取网络模型,包括:
当所述损失结果表明所述第三词向量和所述第四词向量之间的距离小于阈值时,确定所述文本特征提取网络模型对应的文本处理模型给出的处理结果是否正确;
如果所述处理结果正确,不对所述BERT网络模型进行修正,或者,根据所述距离对所述BERT网络模型进行微调;
如果所述处理结果不正确,根据所述距离对所述BERT网络模型进行修正。
6.根据权利要求1所述的方法,其特征在于,所述样本数据包括正样本数据和负样本数据;所述方法还包括:
确定所述正样本数据对应的所述匹配度为正样本匹配度;确定所述负样本数据对应的所述匹配度为负样本匹配度;
所述根据所述损失结果,对所述BERT网络模型进行修正,得到所述文本特征提取网络模型,包括:
当所述负样本匹配度大于阈值或者所述正样本匹配度小于阈值时,根据所述正样本匹配度和所述负样本匹配度,对所述BERT网络模型进行修正。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911032610.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于最小信息熵的神经网络分词系统及训练方法
- 下一篇:基于人工智能的起名方法