[发明专利]中文文本纠错系统、方法、装置及计算机可读存储介质在审
申请号: | 202010414064.1 | 申请日: | 2020-05-15 |
公开(公告)号: | CN111639489A | 公开(公告)日: | 2020-09-08 |
发明(设计)人: | 李振;张刚;鲍东岳;尹正;张雨枫;刘昊霖;陈厚霖;傅佳美 | 申请(专利权)人: | 民生科技有限责任公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06N20/00 |
代理公司: | 北京金智普华知识产权代理有限公司 11401 | 代理人: | 巴晓艳 |
地址: | 101300 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中文 文本 纠错 系统 方法 装置 计算机 可读 存储 介质 | ||
本发明提供一种中文文本纠错系统、方法、装置及计算机可读存储介质,所述中文文本纠错系统及方法通过机器学习的多种方法检查以及修正中文文本中出现的多种错误,将不通顺的文本修正为通顺的、适合阅读的中文文本,有其针对句子中出现的形状相似或者发音相同的文字进行修正;通过困惑度查询到错误字符发生的位置,再利用混淆集以及语言模型的方式选择正确的修改方式对错误字符进行替换,最终通过评分方法选择返回正确的中文语言表述。本发明采用多线程处理,将输入的短文本分成两批,分两个进程一起跑,加快一倍速度,在并发的条件下,现阶段中文拼写检查+中文拼写纠正的处理效率为500QPS。
【技术领域】
本发明涉及计算机文字处理技术领域,尤其涉及一种基于机器学习模型的中文文本纠错系统、方法、装置及计算机可读存储介质。
【背景技术】
中文作为现在世界上使用人数最多的语言在机器学习领域的发展尚存在非常多的局限性,由于中文的字音字形语法顺序等都较为复杂,所以不论是在人工输入或者机器识别领域,中文的拼写检查与纠错都有非常大的需求量。
同时,由于中文作为非字母文字,在NLP的处理方法上与英文为首的大量字母文字存在着非常多的不同。其区别主要表现在,中文书面文本单词之间是没有空间的,因此中文分词技术是在处理中文文本中碰到的第一个难点。其次,中文词性的标注很大程度上取决于该词的前后文以及所处位置,而英文词语的词性可以依赖于单词的拼写方式,因此词性标注的过程依赖特征和算法都不尽相同。目前出现的中文拼写检查以及纠错方法相对比较落后,对NLP的后续工作地进行比如情感识别、篇章分类等工作形成了障碍。
因此,有必要研究一种基于机器学习模型的中文文本纠错系统、方法、装置及计算机可读存储介质来应对现有技术的不足,以解决或减轻上述一个或多个问题。
【发明内容】
有鉴于此,本发明提供了一种中文文本纠错系统、方法、装置及计算机可读存储介质,本发明通过机器学习的多种方法检查以及修正中文文本中出现的多种错误,将不通顺的文本修正为通顺的、适合阅读的中文文本;通过困惑度查询到错误字符发生的位置,再利用混淆集以及语言模型打分的方式选择正确的修改方式对错误字符进行替换,最终返回正确的中文语言表述。
一方面,本发明提供一种中文文本纠错系统,所述系统基于机器学习模型,所述系统包括:
中文文本预训练模块,用于对中文文本进行预训练,并获取中文文本的困惑度、混淆集及语言模型;
中文文本输入模块,对输入的文本进行预处理,删除非常用标点以及长度异常的空格,转换中英文标点以及编码格式;
中文拼写检查模块,用于当中文文本中字符有拼写错误时,自动返回不正确字符的位置;
中文拼写纠正模块,通过预训练模块以及中文拼写检查模块定位错误字符位置,使用候选词逐一替换字符,通过语言模型计算通顺度结果,选择最优拼写纠正文本输出。
如上所述的方面和任一可能的实现方式,进一步提供一种中文文本纠错方法,包括所述的中文文本纠错系统,所述方法包括以下步骤:
所述中文文本纠错方法包括以下步骤:
S1:进行中文文本预训练,获取中文文本的困惑度、混淆集及语言模型;
S2:对输入的文本进行预处理,删除非常用标点以及长度异常的空格,转换中英文标点以及编码格式;
S3:将每个字符或标点作为一个位置,以字符为单位做余下处理,当中文文本中有拼写错误时,系统返回不正确字符的位置;
S4:通过错误检测定位所有疑似错误后,使用候选词逐一替换该字符,基于语言模型得到类候选短文本集的通顺度计算结果,最终选择最优拼写纠正文本输出。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述S1具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于民生科技有限责任公司,未经民生科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010414064.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于显示视频数据和图像数据的方法和设备
- 下一篇:云溯源系统