[发明专利]一种基于深度学习的中文错字校正方法在审

专利信息
申请号: 201811389401.5 申请日: 2018-11-21
公开(公告)号: CN109522558A 公开(公告)日: 2019-03-26
发明(设计)人: 刘林;崔文斌;周建朋;梁栋;张曦 申请(专利权)人: 金现代信息产业股份有限公司
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 北京久维律师事务所 11582 代理人: 邢江峰
地址: 250101 山东*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 分词 校正 错别字 词语 错字 错误检测 输入序列 语言模型 中文文本 中文 准确率 词库 预置 匹配 学习
【说明书】:

发明提供了一种基于深度学习的中文错字校正方法,包括:S1、利用BiLSTM+Attention+CRF模型进行词语分词;S2、对分词的结果利用提前预置的词库进行匹配,识别出词语中的错别字,并进行校正;S3、利用BiLSTM+Attention机制的语言模型对输入序列进行处理,识别错误的词语。本发明实现了中文文本的高精度分词,解决了现有技术中分词不准确以及错别字识别不准确的问题,通过BiLSTM+Attention+CRF模型提高了分词的精度,提升了错别字校正的准确率,并提高了错别字校正效果,利用双向LSTM实现了更高精度的词语错误检测。

技术领域

本发明涉及文本处理技术领域,特别是一种基于深度学习的中文错字校正方法。

背景技术

目前针对中文的文字错误校正,通常使用传统的分词方法,对需要校正的文本进行分词出,然后根据分词的结果与已有的词库进行匹配,如果未匹配到则有可能是错字,或者是匹配不完全,则证明也是有错字。

传统的中文文本校正方法,在分词的时候未考虑到中文词语前后文之间的关系,对于分词库的质量有着很高的要求。例如“结婚的和尚未结婚的”,在传统的分词中会分成以下的结果“结婚的”“和尚”“未结婚的”。这就对整个的句子含义有了错误的理解,所以在分词的时候应该需要考虑上下文之间的关联性。同时在错字校正的时候,传统的方法仅仅是看匹配度,也没有注意上下文的关联性。因此传统的文字校正方法,对于中文错别字校正的效果比较差。

另外,传统的文字校正方法也没有很好的利用上下文信息进行识别。在识别错误的字,传统的操作是计算词与已有的词库的编辑距离等,然后通过人为的设置阈值,当到达阈值以后,则认为词语中有错误,然后利用距离最短的词语进行替换,这种操作方式没有考虑中文词语上下文之间的关联性,检查错误和纠正错误的效果比较差。

发明内容

本发明的目的是提供一种基于深度学习的中文错字校正方法,旨在解决现有技术中分词不准确以及错别字识别不准确的问题,实现提升错别字校正的准确率,并提高错别字校正效果。

为达到上述技术目的,本发明提供了一种基于深度学习的中文错字校正方法,所述方法包括以下步骤:

S1、利用BiLSTM+Attention+CRF模型进行词语分词;

S2、对分词的结果利用提前预置的词库进行匹配,识别出词语中的错别字,并进行校正;

S3、利用BiLSTM+Attention机制的语言模型对输入序列进行处理,识别错误的词语。

优选地,所述步骤S1具体操作为:

S11、对需要分词的语句进行编码操作;

S12、利用CNN卷积神经网络进行卷积操作,得到对应的经过卷积变换后的特征序列;

S13、将得到的特征序列,输入到BiLSTM神经网络中,利用双向的LSTM序列输出预测向量;

S14、利用Attention模型,对分词的字设置权重,计算得到预测分类的概率向量;

S15、利用CRF算法对得到的集合进行校正处理,得到最终的分词结果。

优选地,所述编码为One-Hot编码。

优选地,所述步骤S2具体为:

对分词出来的结果组成词向量,然后通过编辑距离计算每个词语词库之间的相似度,如果词能够正确的在词库中匹配,则表示词是正确的;如果没有正确匹配,则利用编辑距离的大小对该词进行校正,将校正后的结果更新到原有的词向量中,生成新的词向量。

优选地,所述编辑距离的大小与词之间的相似度为正相关。

优选地,所述步骤S3具体操作为:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于金现代信息产业股份有限公司,未经金现代信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811389401.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top