[发明专利]一种文本错别字自动更正方法和服务器在审
| 申请号: | 201611142654.3 | 申请日: | 2016-12-13 |
| 公开(公告)号: | CN106776501A | 公开(公告)日: | 2017-05-31 |
| 发明(设计)人: | 黄威威;潘嵘;张晋斌 | 申请(专利权)人: | 深圳爱拼信息科技有限公司 |
| 主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/27;G06F17/30 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 518057 广东省深圳市南山区南山街道科*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文本 错别字 自动 更正 方法 服务器 | ||
技术领域
本发明涉及一种数据更正方法领域,更具体的,涉及一种文本错别字自动更正方法和服务器。
背景技术
文本校对过程中主要技术就是纠正错别字。通常情况下,文本校对过程基本上采用2种方法(人工检查校对和基于错别字词典的校对),其中最主要的是错别字词典校对,通过构建错词和正确词相对应的一个词库。中国专利“CN1116343A中文错别字自动订正方法及装置”提供了一种基于词典的错别字纠正方法。此发明通过寻找大量的基于字形、字音或输入码相近的字作为词对来构建错别字词典,再利用评分模型对相应的词进行打分,最后根据打分从词典中选取正确的字。
从错别字的本意上来看,错别字之所以错是因为错别字出现的位置使得句子语义错误、句子的语法以及词性发生变化。传统的错别字纠正方法都是以词作为分析单元,这在某些情况下是可行的,如:“百度”和“百渡”;但在某些基于语义下是不行的,如:“我是各国人”和“我是中国人”。因此,传统的错别字纠正方法有如下不足:
1.建立错别词和正确词配对词典成本非常高。
2.当出现了词典以外的错别字时,系统将无法识别和纠正,这使得系统性能比较局限。
3.系统没有考虑词的词性,词的上下文信息,句法和语义,因此会出现纠正后的词不符合语法和语义,或者有不符合语义与句法的词无法被识别。对于一些同音词,如“百度”和“摆渡”,当出现这样的错别词语时,系统是无法识别和纠正的。
4.当一些句子出现长短错误,系统是无法进行纠正的。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。
为此,本发明的目的在于,提供一种文本错别字自动更正方法和服务器,通过设计一种文本错别字自动更正方法和服务器,能够更高效的纠正文本中的错别字,通过深度学习模型和高维向量化,将每个字映射到高位空间中,并通过高维向量表示字与字之间的关系,再利用字的上下文信息和其在句子中的作用来识别其是否是错别字。该方法不用花费大量的成本去构建错别字与正确字之间的一一对应关系,而仅仅是构建一个合适的错别字训练语料,搭建一个错别字纠正模型,学习错别字的特征。本发明很好的解决了传统方法下的错别字纠正系统缺点。同时,本发明采用的技术方案时考虑了句子的语义和句法、词性和词的上下文信息来对句子中的错别字进行识别和纠正。它能识别的错别字不仅仅只是同音字和形近字,还可以识别和改正其他类型的错别字。大大提高了错别字的纠正效率。
为实现上述目的,本发明提供一种文本错别字自动更正方法,其特征在于,包括:
步骤1,对需要校对的文本进行预处理;
步骤2,将所述预处理后的文本进行编码,并将编码后的文本中每个字符进行向量化处理,得到相应的第一字符向量;
步骤3,采用attention机制和双向LSTM(long short term memory,长短时记忆网络)模型对句子进行识别,并输出其识别结果;
步骤4,针对所述识别结果,对其周边的字符进行预测,并与预设的概率阈值进行比较;
步骤5,将大于所述概率阈值的结果作为最终更正的结果发送至用户端,供用户进行选择。
优选的,所述步骤5还包括:当大于所述概率阈值的结果为1时,则自动对校对文本进行更正,不需要用户进行选择。
优选的,所述预处理为去除掉无意义的符号,将繁体字转换成简体字,全角符号转换成半角符号中的一种或几种。
优选的,所述将所述预处理后的文本进行编码中的编码方式为UTF-8编码。
优选的,在所述步骤1之前,还包括:服务器针对每个字符都进行向量表示,生成第二字符向量,所述第二字符向量包含了字符特征信息,然后得到一个语言模型规则,将所述第二字符向量和语言模型规则存储到相应的数据库中。
优选的,所述字符特征信息为词性、语法、语义中的一种或几种。
本发明另一方面还提供一种文本错别字自动更正服务器,包括:
预处理模块,用于对需要校对的文本进行预处理;
向量生成模块,用于将所述预处理后的文本进行编码,并将编码后的文本中每个字符进行向量化处理,得到相应的第一字符向量;
识别模块,用于采用attention机制和双向LSTM(long short term memory,长短时记忆网络)模型对句子进行识别,并输出其识别结果;
预测模块,用于针对所述识别结果,对其周边的字符进行预测,并与预设的概率阈值进行比较;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳爱拼信息科技有限公司,未经深圳爱拼信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611142654.3/2.html,转载请声明来源钻瓜专利网。





