[发明专利]文本处理方法、装置、电子设备及计算机可读存储介质有效
申请号: | 202110649374.6 | 申请日: | 2021-06-10 |
公开(公告)号: | CN113255327B | 公开(公告)日: | 2021-09-28 |
发明(设计)人: | 杨韬 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/289;G06F16/332 |
代理公司: | 北京市立方律师事务所 11330 | 代理人: | 张筱宁 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 装置 电子设备 计算机 可读 存储 介质 | ||
本申请实施例提供了一种文本处理方法、装置、电子设备及计算机可读存储介质,该方法包括:获取待处理文本对应的至少一个词序列,每一词序列对应于问题文本和一个段落文本;将各词序列输入训练好的文本处理模型,通过训练好的文本处理模型分别提取各词序列中各词的特征向量,并基于特征向量获取各词序列中各词的概率,概率包括对应的词为答案的起始词的第一概率、以及为答案的终止词的第二概率;基于各词序列中各词的第一概率和第二概率,确定出问题文本的答案。该方案文本处理模型既利用了段落文本中各词的特征向量也利用了问题文本中各词的特征向量,且输出的各词的概率具有可比性,保证了最终答案的准确性。
技术领域
本申请涉及计算机技术领域,具体而言,本申请涉及一种文本处理方法、装置、电子设备及计算机可读存储介质。
背景技术
机器阅读理解(Machine Reading Comprehension,MRC)是利用机器学习模型来做文本问题理解工作,是自然语言处理(Natural Language Processing,NLP)中一项基础的底层技术。它的基本任务是给出一个问题,以及一些文档,从这些文档里找出这个问题的答案。
传统的MRC任务是“一问一答”形式,也就是一个问题对应一个段落。但是,在很多实际情况下,一个问题对应的并不只是一个段落。例如在开放域问答(OpenQA,OpenQuestion and Answer)场景下,一个问题对应于多个段落。现有的机器阅读理解方法中的机器阅读理解模型是针对“一个问题对应一个段落”的场景设计的,利用现有机器阅读理解方法对“一个问题对应多个段落”的场景进行处理时,可能出现获取到的答案不准确的问题,因此有必要对现有方法提出改进。
发明内容
本申请的目的旨在至少能解决上述的技术缺陷之一,本申请实施例所提供的技术方案如下:
第一方面,本申请实施例提供了一种文本处理方法,包括:
获取待处理文本对应的至少一个词序列,待处理文本包括问题文本和对应的至少一个与问题文本相关的段落文本,每一词序列对应于问题文本和一个段落文本;
将各词序列输入训练好的文本处理模型,通过训练好的文本处理模型分别提取各词序列中各词的特征向量,并基于特征向量获取各词序列中各词的概率,概率包括对应的词为答案的起始词的第一概率、以及为答案的终止词的第二概率;
基于各词序列中各词的第一概率和第二概率,确定出问题文本的答案。
在本申请的一种可选实施例中,获取待处理文本对应的至少一个词序列,包括:
将问题文本和至少一个段落文本分别进行分词处理,得到问题词序列和至少一个段落词序列;
将各段落词序列分别与问题词序列进行拼接,得到对应的词序列。
在本申请的一种可选实施例中,将各段落词序列分别与问题词序列进行拼接,得到对应的词序列,包括:
将问题词序列拼接在各段落词序列之前,并在问题词序列之前、问题词序列与段落词序列之间以及段落词序列之后,添加第一指定字符,得到对应的词序列。
在本申请的一种可选实施例中,训练好的文本处理模型通过如下方式训练得到:
获取预设数量的训练样本,并获取各训练样本对应的至少一个样本词序列,训练样本包括问题文本和对应的至少一个标注有答案的起始词和终止词的段落文本,每一样本词序列对应于问题文本和一个段落文本;
依次将各训练样本对应的至少一个样本词序列输入初始的文本处理模型,从文本处理模型的输出中获取各样本词序列中标注的答案的起始词的目标第一概率、以及终止词的目标第二概率,并基于目标第一概率和目标第二概率获取各训练样本对应的损失值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110649374.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:吊具角度调节方法、吊具调节机构及门座起重机
- 下一篇:锁模机构和注塑机