[发明专利]一种基于CNN-LSTM的汉字拼写错别字改正方法有效

专利信息
申请号: 201711296509.5 申请日: 2017-12-08
公开(公告)号: CN107992211B 公开(公告)日: 2021-03-12
发明(设计)人: 张晋斌;潘嵘 申请(专利权)人: 中山大学
主分类号: G06F3/023 分类号: G06F3/023
代理公司: 广州粤高专利商标代理有限公司 44102 代理人: 林丽明
地址: 510275 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 cnn lstm 汉字 拼写 错别字 改正 方法
【说明书】:

技术领域

本发明涉及计算机自然语言处理方法领域,更具体地,涉及一种基于CNN-LSTM的汉字拼写错别字改正方法。

背景技术

随着中国经济的快速发展,中国在世界上的影响力越来越大,有越来越多的外国人开始学习汉语,但是在学外语过程中常常会犯拼写类错误,例如“今天天气很好”写为“今天天汽很好”。这种错误常常是一个句子中一个字或者几个字写错,但是并没有语法错误。因此在辅助教学的系统中,对于这种拼写错误需要计算机自动发现并且纠正错误。

之前传统的纠正汉字拼写错别字的方法主要是根据错别字表(即每一个汉字的音近形近字表)中的候选汉字来替换句子中的汉字,然后根据tri-gram等模型的打分来决定选择选哪个汉字作为改正后的汉字,这样的话需要计算每一个候选字,所以计算复杂度比较高,并且只是考虑到了词语而没有考虑语境,所以传统的汉字错别字拼写错误的纠正与改正的效果并不太好。随着深度学习技术的发展,近年来也有一些利用神经网络模型来检测错别字的方法,比如Yow-Ting Shiue等人就提出了利用双向LSTM神经网络模型来检测错别字的方法。但是这种模型只能够检测错别字,并不能够改正错别字,这是这种模型的一个缺陷。

所以对于这种现状,我们提出了一种端到端的基于神经网络方法的汉字错别字检测以及纠正系统。可以直接输入错别字,而输出就是改正后的句子。

发明内容

本发明提供一种提高改正的准确率的基于CNN-LSTM的汉字拼写错别字改正方法。

为了达到上述技术效果,本发明的技术方案如下:

一种基于CNN-LSTM的汉字拼写错别字改正方法,包括以下步骤:

S1:对于输入的句子进行编码,并对错别字进行过滤;

S2:根据获得的过滤后的信息以及上下文信息解码出当前时间节点对应的正确的汉字。

进一步地,所述步骤S1的具体过程是:

S11:对于输入的句子,首先使用预训练好的word2vector汉字词向量把输入的句子初始化成一个矩阵,然后开一个固定宽度的窗口,只对窗口内的信息做编码;

S12:编码部分的结构包含两个不同的卷积神经网络卷积核,一个用于检测在窗口内的汉字是不是包含错别字,其宽度和高度与窗口的大小以及词向量的大小一致,并且输出要经过一个非线性变换函数sigmoid函数,另外一个用于编码窗口内的汉字信息,其宽度为窗口的宽度,而高度为1,这两种不同的卷积神经网络卷积核的数目由具体的需求来确定,其中第二种卷积神经网络网络的作用可以看作是用于来对窗口中的汉字信息的编码,而第一种卷积神经网络的卷积核作用则相当于一个门对第二种卷积核所编码的信息的过滤;对于两种不同的卷积神经网络的输出,拉平成两个向量之后对于两个向量进行逐元素的相乘:

encode=B*sigmoid(A,其中A,B表示两个不同的卷积神经网络的输出向量表示,encode表示在第t时刻对应的窗口信息的向量表示。

进一步地,所述步骤S2的具体过程是:

根据编码部分获得的过滤后的信息以及上下文信息解码出当前时间节点对应的正确的汉字,分为两个过程:一个是解码部分的输入,另外一个是解码部分的输出:

1)解码部分的输入:解码部分的每一个时间节点的输入就是编码部分的输出encode,其具体结构是一个双向LSTM结构,在解码的时候可以利用到上下文信息;

2)解码部分的输出:对于双向LSTM的输出,其每个时间节点的输出经过一个softmax层,softmax的输出维度是汉字字典的大小,输出的句子就是改正后的句子,对于检测来说,如果对应位置的汉字与输入的汉字不一样,则认为该位置的汉字是错别字。

与现有技术相比,本发明技术方案的有益效果是:

本发明是一种基于CNN神经网络以及LSTM神经网络模型的端到端汉字错别字拼写错误纠正方法,该方法主要是利用了文本的上下文来纠错,即每一个汉字根据其上下文来判断该汉字正确与否,若该汉字是错别字的话则会根据其上下文来纠正错误。并且在模型训练中用到了随机改错的训练方式,提高了改正的准确率。

附图说明

图1为本发明方法的流程图。

具体实施方式

附图仅用于示例性说明,不能理解为对本专利的限制;

为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;

对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711296509.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top