[发明专利]文本纠错方法、装置、计算机设备及存储介质有效
申请号: | 202011468344.7 | 申请日: | 2020-12-14 |
公开(公告)号: | CN112232059B | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 陈孝良;苏少炜;岳晓宇;常乐 | 申请(专利权)人: | 北京声智科技有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/289;G06F40/295;G06F40/30 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 孔德月 |
地址: | 100094 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 纠错 方法 装置 计算机 设备 存储 介质 | ||
本申请实施例提供一种文本纠错方法、装置、计算机设备及存储介质。该方法包括:获取待纠错语句;在待纠错语句中确定第一实体,在知识库中确定与第一实体相对应的第二实体;基于第二实体的类型和待纠错语句生成候选语句;通过语言模型在候选语句中确定出目标语句;根据目标语句,以及目标语句对应的第二实体,确定待纠错语句对应的正确语句。本申请实施例提供的技术方案,通过利用外部知识提供的信息对文本中出现的知识型错误(待纠错语句中存在字音、字形、缺字等错误但语义依然合理时)进行纠错,一方面减小纠错算法对大规模数据的依赖,一方面提高纠错能力以及纠错成功率。
技术领域
本申请实施例涉及互联网技术领域,特别涉及一种文本纠错方法、装置、计算机设备及存储介质。
背景技术
目前,终端在接收用户输入的语句,以及将语音信号转换成语句的过程中通常会出现错误语句,需要对上述错误语句进行纠错。
在自然语言处理领域,通过大规模预料训练得到语言模型,错误语句被输入至该语言模型后,由语言模型输出正确语句。然而,语言模型通常能纠正形近或音似的错别字、多字和缺字造成的错误语句,也即语言模型能很好纠正文本中导致文本无意义的错误。示例性地,语言模型将“天气转凉,请注意预防感帽”纠错结果为“天气转凉,请注意预防感冒”。
若错误文本具有合理的语义,此时语言模型无法进行纠正,导致文本纠错的成功率较低。
发明内容
本申请实施例提供一种文本纠错方法、装置、计算机设备及存储介质。所述技术方案包括如下几方面。
一方面,本申请实施例一种文本纠错方法,所述方法包括:
获取待纠错语句;
在所述待纠错语句中确定至少一个第一实体,在所述知识库中确定第二实体集合,所述第二实体集合包括与所述第一实体分别对应的第二实体,所述知识库包括多个实体之间的关系信息;
基于所述第二实体的类型和所述待纠错语句生成候选语句;
通过语言模型在所述候选语句中确定出目标语句,所述语言模型是通过由实体的类型组成的样本语句对神经网络进行训练得到的;
根据所述目标语句,以及所述目标语句对应的所述第二实体,确定所述待纠错语句对应的正确语句。
另一方面,本申请实施例提供一种文本纠错装置,所述装置包括:
语句获取模块,用于获取待纠错语句;
第一确定模块,用于在所述待纠错语句中确定至少一个第一实体,在所述知识库中确定第二实体集合,所述第二实体集合包括与所述第一实体分别对应的第二实体,所述知识库包括多个实体之间的关系信息;
语句生成模块,用于基于所述第二实体的类型和所述待纠错语句生成候选语句;
第二确定模块,用于通过语言模型在所述候选语句中确定出目标语句,所述语言模型是通过由实体的类型组成的样本语句对神经网络进行训练得到的;
文本纠错模块,用于根据所述目标语句,以及所述目标语句对应的所述第二实体,确定所述待纠错语句对应的正确语句。
又一方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如一方面所述的文本纠错方法。
又一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如一方面所述的文本纠错方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京声智科技有限公司,未经北京声智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011468344.7/2.html,转载请声明来源钻瓜专利网。