[发明专利]一种中文拼写纠错模型在审

申请号：	202011549372.1	申请日：	2020-12-24
公开（公告）号：	CN112861517A	公开（公告）日：	2021-05-28
发明（设计）人：	申兴发;赵庆彪;徐胜;李树丰;刘立立	申请（专利权）人：	杭州电子科技大学
主分类号：	G06F40/232	分类号：	G06F40/232;G06F40/211;G06F40/126;G06N3/04;G06N3/08
代理公司：	杭州君度专利代理事务所(特殊普通合伙) 33240	代理人：	朱月芬
地址：	310018 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种中文拼写纠错模型
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种中文拼写纠错模型。本发明是一个输入步长和输出步长一致的编解码模型；将待纠错的句子X＝{x₁，x₂，x₃…x_n}，输入到混淆字图卷积神经网络和依存句法关系图卷积神经网络中，输出带有混淆字和关系信息的上下文向量；并将该上下文向量输入到编解码模型中，得到纠正后的句子Y＝{y₁，y₂，y₃…y_n}。本发明充分考虑到字与字之间的上下文关系、依存句法关系和混淆字之间的关系，提出了一种新颖的中文拼写纠错模型。

技术领域

本发明涉及计算机自然语言处理领域，更具体的说涉及一种端到端的中文拼写纠错模型。

背景技术

中文拼写纠错是一种文本纠错，应用于中文输入法、搜索引擎、聊天机器人、语音助手等智能领域，有很好的应用前景。它帮助汉语学习者更好的理解句子含义，帮助搜索引擎更准确的匹配到主题内容，帮助聊天机器人更准确的获得用户需求并回复最相关的信息。现有的模型没有充分考虑到字或词向量的上下文、依存句法关系和混淆字之间的关系，对此，本文提出一种新颖的端到端的充分考虑到上下文信息、依存句法以及混淆字关系的中文拼写纠错模型。

发明内容

本发明的目的是提供一种中文拼写纠错模型。

本发明解决其技术问题所采用的技术方案如下：

本发明模型是一个输入步长和输出步长一致的编解码模型。将待纠错的句子X笰{x₁，x₂，x₃…x_n}，输入到混淆字图卷积神经网络(CoGcn)和依存句法关系图卷积神经网络(ReGcn)中，输出带有混淆字和依存句法关系信息的上下文向量。并将该上下文向量输入到编解码模型中，得到纠正后的句子Y笰{y₁，y₂，y₃…y_n}。

进一步，所述的混淆字图卷积神经网络具体实现如下：

将现有混淆集中的每一个字当作节点，字与字之间的关系当作边，构造出邻接矩阵A∈R^N*N，N指的是混淆集的大小。如果A[i][i]与A[i][j]是字形相似或发音相似的混淆字，则A[i][j]＝1,否则A[i][j]＝0(0≤i，j≤n-1)。然后将邻接矩阵A正则化。公式如下：

其中，I是单位矩阵，是的度矩阵；

通过混淆字图卷积神经网络，捕获混淆字之间相似的信息，将混淆字映射到相同的向量空间。每一层的图卷积公式如下:

其中，H∈R^N*D,D是字向量的维度，它是隐藏层向量。用Bert预训练的上下文字向量初始化H⁰。W^l∈R^D*D,是可训练的参数。为了保持原始语义，进行叠加操作，公式如下:

进一步，所述的依存句法关系图卷积神经网络：

用工具提取句子关系，对输入句子的每个字生成关系向量，以每个字为节点，字与字之间的关系为边，通过依存句法关系图卷积神经网络，提取任意两个字之间的依存句法关系。

每一卷积层中每一个节点的图卷积后提取的依存句法关系向量如下：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学，未经杭州电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011549372.1/2.html，转载请声明来源钻瓜专利网。