[发明专利]一种中文拼写纠错模型在审

专利信息
申请号: 202011549372.1 申请日: 2020-12-24
公开(公告)号: CN112861517A 公开(公告)日: 2021-05-28
发明(设计)人: 申兴发;赵庆彪;徐胜;李树丰;刘立立 申请(专利权)人: 杭州电子科技大学
主分类号: G06F40/232 分类号: G06F40/232;G06F40/211;G06F40/126;G06N3/04;G06N3/08
代理公司: 杭州君度专利代理事务所(特殊普通合伙) 33240 代理人: 朱月芬
地址: 310018 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 中文 拼写 纠错 模型
【说明书】:

发明公开了一种中文拼写纠错模型。本发明是一个输入步长和输出步长一致的编解码模型;将待纠错的句子X={x1,x2,x3…xn},输入到混淆字图卷积神经网络和依存句法关系图卷积神经网络中,输出带有混淆字和关系信息的上下文向量;并将该上下文向量输入到编解码模型中,得到纠正后的句子Y={y1,y2,y3…yn}。本发明充分考虑到字与字之间的上下文关系、依存句法关系和混淆字之间的关系,提出了一种新颖的中文拼写纠错模型。

技术领域

本发明涉及计算机自然语言处理领域,更具体的说涉及一种端到端的中文拼写纠错模型。

背景技术

中文拼写纠错是一种文本纠错,应用于中文输入法、搜索引擎、聊天机器人、语音助手等智能领域,有很好的应用前景。它帮助汉语学习者更好的理解句子含义,帮助搜索引擎更准确的匹配到主题内容,帮助聊天机器人更准确的获得用户需求并回复最相关的信息。现有的模型没有充分考虑到字或词向量的上下文、依存句法关系和混淆字之间的关系,对此,本文提出一种新颖的端到端的充分考虑到上下文信息、依存句法以及混淆字关系的中文拼写纠错模型。

发明内容

本发明的目的是提供一种中文拼写纠错模型。

本发明解决其技术问题所采用的技术方案如下:

本发明模型是一个输入步长和输出步长一致的编解码模型。将待纠错的句子X笰{x1,x2,x3…xn},输入到混淆字图卷积神经网络(CoGcn)和依存句法关系图卷积神经网络(ReGcn)中,输出带有混淆字和依存句法关系信息的上下文向量。并将该上下文向量输入到编解码模型中,得到纠正后的句子Y笰{y1,y2,y3…yn}。

进一步,所述的混淆字图卷积神经网络具体实现如下:

将现有混淆集中的每一个字当作节点,字与字之间的关系当作边,构造出邻接矩阵A∈RN*N,N指的是混淆集的大小。如果A[i][i]与A[i][j]是字形相似或发音相似的混淆字,则A[i][j]=1,否则A[i][j]=0(0≤i,j≤n-1)。然后将邻接矩阵A正则化。公式如下:

其中,I是单位矩阵,是的度矩阵;

通过混淆字图卷积神经网络,捕获混淆字之间相似的信息,将混淆字映射到相同的向量空间。每一层的图卷积公式如下:

其中,H∈RN*D,D是字向量的维度,它是隐藏层向量。用Bert预训练的上下文字向量初始化H0。Wl∈RD*D,是可训练的参数。为了保持原始语义,进行叠加操作,公式如下:

进一步,所述的依存句法关系图卷积神经网络:

用工具提取句子关系,对输入句子的每个字生成关系向量,以每个字为节点,字与字之间的关系为边,通过依存句法关系图卷积神经网络,提取任意两个字之间的依存句法关系。

每一卷积层中每一个节点的图卷积后提取的依存句法关系向量如下:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011549372.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top