[发明专利]一种修正文本的方法、装置、计算机设备及存储介质在审
申请号: | 202110426412.1 | 申请日: | 2021-04-20 |
公开(公告)号: | CN113761189A | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 杨韬 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/194;G06F40/232;G06N3/08;G06N20/00 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 朱佳 |
地址: | 518044 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 修正 文本 方法 装置 计算机 设备 存储 介质 | ||
1.一种修正文本的方法,其特征在于,包括:
获得待修正的输入文本序列;
采用已训练的修正模型,基于所述输入文本序列包含的各个输入文本位置上的输入子文本,针对各个输出文本位置,分别匹配所述输入文本序列与预设的候选子文本集合中的各个候选子文本,获得针对所述各个输出文本位置的第一匹配结果,其中,所述各个输出文本位置,与所述输入文本序列包含的各个输入文本位置一一对应;
基于所述各个输入文本位置中的指定输入文本位置上的输入子文本,针对所述各个输出文本位置,分别匹配所述输入文本序列与所述各个候选子文本,获得针对所述各个输出文本位置的第二匹配结果,其中,所述指定输入文本位置是在所述各个输入文本位置中,针对所述各个输出文本位置分别指定的输入文本位置;
基于获得的各个第一匹配结果和各个第二匹配结果,确定所述各个输出文本位置上的输出子文本,获得所述输入文本序列对应的已修正的输出文本序列。
2.根据权利要求1所述的方法,其特征在于,获得待修正的输入文本序列,包括:
获得待修正的输入文本,提取所述输入文本包含的各个输入子文本;
按照所述各个输入子文本在所述输入文本中的衔接顺序,依次排列所述各个输入子文本,获得所述输入文本序列,其中,所述输入文本序列包含多个输入文本位置,且每个输入文本位置对应一输入子文本。
3.根据权利要求1所述的方法,其特征在于,所述已训练的修正模型包括已训练的无监督修正子模型和已训练的有监督修正子模型;则所述第一匹配结果是采用所述已训练的无监督修正子模型获得的,所述第二匹配结果是采用所述已训练的有监督修正子模型获得的。
4.根据权利要求3所述的方法,其特征在于,基于所述输入文本序列包含的各个输入文本位置上的输入子文本,针对各个输出文本位置,分别匹配所述输入文本序列与预设的候选子文本集合中的各个候选子文本,获得针对所述各个输出文本位置的第一匹配结果,包括:
针对所述各个输出文本位置,分别执行以下操作:
采用所述已训练的无监督修正子模型,针对各个输出文本位置中的一输出文本位置,基于所述各个输入子文本的子文本特征,获得所述输入文本序列的第一序列特征向量;
匹配所述输入文本序列的第一序列特征向量,与预存的所述各个候选子文本的候选特征向量,针对所述一输出文本位置,获得所述输入文本序列与所述各个候选子文本的第一匹配概率;
将获得的各个第一匹配概率,作为针对所述一输出文本位置的第一匹配结果;
基于所述各个输入文本位置中的指定输入文本位置上的输入子文本,针对所述各个输出文本位置,分别匹配所述输入文本序列与所述各个候选子文本,获得针对所述各个输出文本位置的第二匹配结果,包括:
针对所述各个输出文本位置,分别执行以下步骤:
采用所述已训练的有监督修正子模型,针对各个输出文本位置中的一输出文本位置,基于所述指定输入文本位置上的输入子文本的子文本特征,获得所述输入文本序列的第二序列特征向量;
匹配所述输入文本序列的第二序列特征向量,与预存的所述各个候选子文本的候选特征向量,针对所述一输出文本位置,获得所述输入文本序列与所述各个候选子文本的第二匹配概率;
将获得的各个第二匹配概率,作为针对所述一输出文本位置的第二匹配结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110426412.1/1.html,转载请声明来源钻瓜专利网。