[发明专利]一种基于深度学习的中文错字校正方法在审
申请号: | 201811389401.5 | 申请日: | 2018-11-21 |
公开(公告)号: | CN109522558A | 公开(公告)日: | 2019-03-26 |
发明(设计)人: | 刘林;崔文斌;周建朋;梁栋;张曦 | 申请(专利权)人: | 金现代信息产业股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京久维律师事务所 11582 | 代理人: | 邢江峰 |
地址: | 250101 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分词 校正 错别字 词语 错字 错误检测 输入序列 语言模型 中文文本 中文 准确率 词库 预置 匹配 学习 | ||
1.一种基于深度学习的中文错字校正方法,其特征在于,所述方法包括以下步骤:
S1、利用BiLSTM+Attention+CRF模型进行词语分词;
S2、对分词的结果利用提前预置的词库进行匹配,识别出词语中的错别字,并进行校正;
S3、利用BiLSTM+Attention机制的语言模型对输入序列进行处理,识别错误的词语。
2.根据权利要求1所述的一种基于深度学习的中文错字校正方法,其特征在于,所述步骤S1具体操作为:
S11、对需要分词的语句进行编码操作;
S12、利用CNN卷积神经网络进行卷积操作,得到对应的经过卷积变换后的特征序列;
S13、将得到的特征序列,输入到BiLSTM神经网络中,利用双向的LSTM序列输出预测向量;
S14、利用Attention模型,对分词的字设置权重,计算得到预测分类的概率向量;
S15、利用CRF算法对得到的集合进行校正处理,得到最终的分词结果。
3.根据权利要求2所述的一种基于深度学习的中文错字校正方法,其特征在于,所述编码为One-Hot编码。
4.根据权利要求1所述的一种基于深度学习的中文错字校正方法,其特征在于,所述步骤S2具体为:
对分词出来的结果组成词向量,通过编辑距离计算每个词语词库之间的相似度,如果词能够正确的在词库中匹配,则表示词是正确的;如果没有正确匹配,则利用编辑距离的大小对该词进行校正,将校正后的结果更新到原有的词向量中,生成新的词向量。
5.根据权利要求4所述的一种基于深度学习的中文错字校正方法,其特征在于,所述编辑距离的大小与词之间的相似度为正相关。
6.根据权利要求1所述的一种基于深度学习的中文错字校正方法,其特征在于,所述步骤S3具体操作为:
S31、对输入的中文根据字库进行编码操作;
S32、将编码后的One-Hot码输入BiLSTM网络中,进行信息提取;
S33、将BiLSTM输出的信息,传到Attention模型中,利用Attention模型预测当前字符下一个应该出现字符的概率向量;
S34、根据得到的概率输出最终的预测结果。
7.根据权利要求6所述的一种基于深度学习的中文错字校正方法,其特征在于,所述编码使用One-Hot编码格式。
8.根据权利要求6或7所述的一种基于深度学习的中文错字校正方法,其特征在于,所述信息提取包括通过右向的神经网络获取文字的正向的特征信息以及通过逆向的神经网络提取文本中的逆向的关联信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于金现代信息产业股份有限公司,未经金现代信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811389401.5/1.html,转载请声明来源钻瓜专利网。