[发明专利]一种语句的纠错方法及设备在审
申请号: | 201911157807.5 | 申请日: | 2019-11-22 |
公开(公告)号: | CN112836495A | 公开(公告)日: | 2021-05-25 |
发明(设计)人: | 曹源 | 申请(专利权)人: | TCL集团股份有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/289 |
代理公司: | 深圳中一联合知识产权代理有限公司 44414 | 代理人: | 左婷兰 |
地址: | 516006 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语句 纠错 方法 设备 | ||
本发明适用于数据处理技术领域,提供了一种语句的纠错方法及设备,包括:通过预设的关联概率识别模型识别目标语句包含的异常分词;将目标语句内的异常分词替换为合法分词,得到已纠错语句。本发明无需依赖人工对语句纠错,而是可以通过关联概率识别模型对目标语句进行语句纠错,在确保了输出语句的准确率的同时,也能够提高语句纠错的效率,满足了当今电子数据量庞大的校验需求。
技术领域
本发明属于数据处理技术领域,尤其涉及一种语句的纠错方法及设备。
背景技术
随着电子化进程的不断推进,越来越多的信息通过电子化的方式进行存储,例如可以通过语音识别,将声音信号转换为文字数据,又例如通过输入法将用户所需书写的内容转换为电子文档。而当用户通过声音信号或者输入法输入文字信息的过程中,常常在输出的文字数据中出现语句错误,例如在通过声音信号转换为文字数据时夹带了方言,导致无法准确识别用户所表达的文字数据;又例如用户使用输入法输入电子文档时,会出现拼音错误或形似字错误等情况,从而导致了输出的电子文档包含了错别字。
对于上述情况,现有的语句纠错技术中,主要是通过人工对海量的数据进行人工校对,需要耗费较高的人力及时间成本,虽然更专业准确,但是校对过程效率较低,特别在当今电子数据以几何级的数量增长,人工校对的方式显然无法满足实际校验需求。
发明内容
有鉴于此,本发明实施例提供了一种语句的纠错方法及设备,以解决现有的语句纠错技术需要耗费较高的人力及时间成本,校对过程效率较低的问题。
本发明实施例的第一方面提供了一种语句的纠错方法,包括:
通过预设的关联概率识别模型识别目标语句包含的异常分词;
将所述目标语句内的所述异常分词替换为合法分词,得到已纠错语句。
本发明实施例的第二方面提供了一种语句的纠错设备,包括:
异常分词识别单元,用于通过预设的关联概率识别模型识别目标语句包含的异常分词;
已纠错语句输出单元,用于将所述目标语句内的所述异常分词替换为合法分词,得到已纠错语句。
本发明实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面的各个步骤。
本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现第一方面的各个步骤。
实施本发明实施例提供的一种语句的纠错方法及设备具有以下有益效果:
本发明实施例通过将需要进行语句纠错的目标语句导入关联概率识别模块,识别该目标语句中是否包含与整个语句之间关联度较低的异常分词,并将目标语句中的所有异常分词均替换为对应的合法分词,生成并输出已纠错语句,实现了对目标语句进行自动纠错的目的。与现有的语句纠错技术相比,本发明无需依赖人工对语句纠错,而是可以通过关联概率识别模型对目标语句进行语句纠错,在确保了输出语句的准确率的同时,也能够提高语句纠错的效率,满足了当今电子数据量庞大的校验需求。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明第一实施例提供的一种语句的纠错方法的实现流程图;
图2是本发明第二实施例提供的一种语句的纠错方法S101具体实现流程图;
图3是本发明第三实施例提供的一种语句的纠错方法具体实现流程图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于TCL集团股份有限公司,未经TCL集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911157807.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种肛瘘内口封闭引流器
- 下一篇:一种用于LDPC译码的优化方法