[发明专利]一种中文拼写纠错模型在审
| 申请号: | 202011549372.1 | 申请日: | 2020-12-24 |
| 公开(公告)号: | CN112861517A | 公开(公告)日: | 2021-05-28 |
| 发明(设计)人: | 申兴发;赵庆彪;徐胜;李树丰;刘立立 | 申请(专利权)人: | 杭州电子科技大学 |
| 主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/211;G06F40/126;G06N3/04;G06N3/08 |
| 代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
| 地址: | 310018 浙*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 中文 拼写 纠错 模型 | ||
1.一种中文拼写纠错模型,其特征在于该模型是一个输入步长和输出步长一致的编解码模型;将待纠错的句子X={x1,x2,x3...xn},输入到混淆字图卷积神经网络和依存句法关系图卷积神经网络中,输出带有混淆字和依存句法关系信息的上下文向量;并将该上下文向量输入到编解码模型中,得到纠正后的句子Y={y1,y2,y3...yn}。
2.根据权利要求1所述的一种中文拼写纠错模型,其特征在于所述的混淆字图卷积神经网络具体实现如下:
将现有混淆集中的每一个字当作节点,字与字之间的关系当作边,构造出邻接矩阵A∈RN*N,N指的是混淆集的大小;如果A[i][i]与A[i][j]是字形相似或发音相似的混淆字,则A[i][j]=1,否则A[i][j]=0(0≤i,j≤n-1);然后将邻接矩阵A正则化;公式如下:
其中,I是单位矩阵,是的度矩阵;
通过混淆字图卷积神经网络,捕获混淆字之间相似的信息,将混淆字映射到相同的向量空间,每一层的图卷积公式如下:
其中,H∈RN*D,D是字向量的维度,它是隐藏层向量;用Bert预训练的上下文字向量初始化H0;Wl∈RD*D,是可训练的参数;为了保持原始语义,进行叠加操作,公式如下:
3.根据权利要求2所述的一种中文拼写纠错模型,其特征在于所述的依存句法关系图卷积神经网络:
用工具提取句子关系,对输入句子的每个字生成关系向量,以每个字为节点,字与字之间的关系为边,通过依存句法关系图卷积神经网络,提取任意两个字之间的依存句法关系;
每一卷积层中每一个节点的图卷积后提取的依存句法关系向量如下:
其中l指的是第l层卷积层,i指的是当前节点,R是字与字之间的所有关系,是指与当前节点i具有关系r的所有节点,c是缩放因子,w0l是可训练的参数,b是偏置参数,h∈R1*D,w∈RD*D,b∈R1*D,D是关系向量的维度;每个节点与其关系节点进行卷积操作,捕获依存句法关系信息。
4.根据权利要求3所述的一种中文拼写纠错模型,其特征在于由于如果句子中的字不在混淆集中,就用Bert预训练的上下文字向量表示;否则用混淆字图神经网络提取的混淆字向量表示;混淆字图神经网络输出的是一个RN*D的矩阵,表示混淆集中第i个字的具有上下文信息和混淆字信息的向量;将混淆字图卷积神经网络提取的混淆字向量称为hc,Bert预训练的上下文向量成为hb,则:
依存句法关系图卷积神经网络的输出是每一个字的依存句法关系向量将依存句法关系图卷积神经网络提取的依存句法关系向量称为hr;将上下文向量hb或混淆字向量hc与依存句法关系向量hr融合在一起,将融合的向量输送到编码器;
所述编码器是一个双向的长短期记忆网络;将编码器在最终时间步的隐藏状态作为解码器的初始隐藏状态;
解码器是一个单向的LSTM循环神经网络:
其中,在训练阶段是目标字的混合向量;在测试阶段是前一个时间步推断出的目标向量;通过注意力机制得到全局上下文向量其中αij是每一个时间步的隐藏状态对应的权重;将每个时间步对应的全局上下文向量和解码层的隐藏层向量串联起来,并进行归一化:
其中Wt∈RM*D,W是可学习的参数,M是Bert词汇表的大小;损失函数是交叉熵损失函数,最终输出纠正后的句子。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011549372.1/1.html,转载请声明来源钻瓜专利网。





