[发明专利]一种基于互信息的中文纠错方法、装置、设备及存储介质有效
申请号: | 201710817047.0 | 申请日: | 2017-09-12 |
公开(公告)号: | CN107608963B | 公开(公告)日: | 2021-04-16 |
发明(设计)人: | 何朋;罗欢;权圣 | 申请(专利权)人: | 马上消费金融股份有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/232;G06F40/216 |
代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 许静 |
地址: | 401121 重庆市渝北区*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 互信 中文 纠错 方法 装置 设备 存储 介质 | ||
本发明公开了一种基于互信息的中文纠错方法,该方法包括以下步骤:获得待纠错的目标短句,对目标短句进行分词处理,获得分词序列,确定分词序列对应的拼音组合序列,拼音组合序列中每个拼音组合与分词序列中每个分词一一顺序对应,基于拼音组合序列中每个拼音组合映射的同音词语,获得纠错词语序列集合,计算纠错词语序列集合中的每一个纠错词语序列的互信息,根据互信息的大小,确定目标短句的纠错结果。应用本发明实施例提供的技术方案,可根据词语的频率和词语搭配频率对目标短句进行纠错,可以提高中文纠错准确率。本发明还公开了一种基于互信息的中文纠错装置、一种基于互信息的中文纠错设备及一种计算机可读存储介质具有相应的技术效果。
技术领域
本发明涉及文本纠错技术领域,特别是涉及一种基于互信息的中文纠错方法、装置、及存储介质。
背景技术
随着出版电子化的迅猛发展,中文自动校对技术也得到了极大的发展。其中,拼音纠错技术在推动中文自动校对技术的发展中功不可没。
近年来,拼音纠错技术主要依赖于在大规模的语料获取、并生成一定数量的语料库,然后基于语料库对需要纠错的文本进行匹配比较,如果发现有不一样的地方,则根据语料库中计算的词语的频率提出最合理、最正确的字或词。
现有的拼音纠错在应对词语搭配错误时,可能会忽略语法错误,使得中文纠错准确率较低。以“我的贷款余期了”为例,在统计语料中出现大量的“余期”这样的表述时,利用拼音纠错技术可能不会将“余期”这个错误指出,更不会将“余期”纠正为“逾期”。
发明内容
本发明的目的是提供一种基于互信息的中文纠错方法、装置、设备及存储介质,以提高中文纠错的准确率。
为解决上述技术问题,本发明提供如下技术方案:
一种基于互信息的中文纠错方法,包括:
获得待纠错的目标短句;
对所述目标短句进行分词处理,获得分词序列;
确定所述分词序列对应的拼音组合序列,所述拼音组合序列中每个拼音组合与所述分词序列中每个分词一一顺序对应;
基于所述拼音组合序列中每个拼音组合映射的同音词语,获得纠错词语序列集合;
计算所述纠错词语序列集合中的每一个纠错词语序列的互信息;
根据互信息的大小,确定所述目标短句的纠错结果。
优选地,所述计算所述纠错词语序列集合中的每一个纠错词语序列的互信息,包括:
针对所述纠错词语序列集合中每一个纠错词语序列,计算该纠错词语序列中每一个词语与相邻词语的互信息;
将该纠错词语序列中每一个词语与相邻词语的互信息进行累加,获得该纠错词语序列的互信息。
优选地,针对该纠错词语序列中每一个词语,通过以下步骤计算该词语与相邻词语的互信息:
基于预先获得的语料库,确定该词语的词频、该词语与相邻词语的搭配组合的搭配频率;
根据所述词频和所述搭配频率,确定该词语与相邻词语的互信息。
优选地,所述根据互信息的大小,确定所述目标短句的纠错结果,包括:
将所述纠错词语序列集合中互信息最大的纠错词语序列确定为所述目标短句的纠错结果。
优选地,所述目标短句为根据预设的断句符号,对待纠错的文本中的长句进行断句后获得的。
一种基于互信息的中文纠错装置,包括:
目标短句获得模块,用于获得待纠错的目标短句;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于马上消费金融股份有限公司,未经马上消费金融股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710817047.0/2.html,转载请声明来源钻瓜专利网。