[发明专利]语法纠错方法及装置在审
申请号: | 202110261517.6 | 申请日: | 2021-03-10 |
公开(公告)号: | CN115081431A | 公开(公告)日: | 2022-09-20 |
发明(设计)人: | 刘杰;王笑;张穗云;张晴 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F40/253 | 分类号: | G06F40/253;G06N3/08 |
代理公司: | 北京中博世达专利商标代理有限公司 11274 | 代理人: | 申健 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语法 纠错 方法 装置 | ||
本申请提供语法纠错方法及装置;涉及人工智能领域以及自然语言生成领域,能够利用输入文本的特征对输入文本进行语法纠错,提升语法纠错效果。并且,将特征和输入文本并行进行编码,有效提高语法纠错效率。该方法包括:获取输入文本以及输入文本的特征,对输入文本以及特征进行并行编码,获得对应的两个编码向量,利用两个编码向量获得输入文本向量,之后对输入文本向量进行解码,以获得语法纠错后的输出文本。
技术领域
本申请实施例涉及人工智能领域以及自然语言生成领域,尤其涉及一种语法纠错方法及装置。
背景技术
语言是必不可少的沟通手段,但是由于语言本身的复杂性,翻译人员或翻译软件往往难以避免会出现错误,影响语义表达的准确性。因此,在语言翻译过程中,为了进行检错和纠错,需要利用算法模型对输入语言进行自然语言处理,但是在自然语言处理过程中又难免会引入新的错误,如语法错误。
基于此,语法纠错(grammatical error correction,GEC)领域发展成为研究热点和难点。其中,基于序列到序列(sequence to sequence,seq2seq)的策略逐渐成为主流策略,seq2seq策略能够对一般语法错误进行检错和纠错。
但是,由于语法错误的多样性和随机性,现有语法纠错策略并不能高效充分的进行语法纠错,导致语法纠错效果不理想。
发明内容
本申请实施例提供的语法纠错方法及装置,能够利用输入文本的特征对输入文本进行语法纠错,提升语法纠错效果。并且,将特征和输入文本并行进行编码,有效提高语法纠错效率。
为达到上述目的,本申请实施例采用如下技术方案:
第一方面,本申请实施例提供一种语法纠错方法,该方法可以包括:获取输入文本,以及获取输入文本的特征。对特征执行第一编码过程,获得第一编码向量,并对输入文本执行第二编码过程,获得第二编码向量;第一编码过程和第二编码过程并行。利用第一编码向量和第二编码向量,获得输入文本向量。对输入文本向量进行解码,输出解码后的输出文本。
如此,利用特征向量参与语法纠错过程。不仅能够提升语法纠错的性能,使得纠错模型能够提供更具表达能力和可辨别性的编码词向量,为后续解码过程提供良好基础。并且,并行进行输入文本编码过程以及特征编码过程,还能够降低特征编码过程对纠错模型推理效率上的影响,提升语法纠错效率。
其中,第一编码向量也可以理解为外部特征编码向量,第二编码向量也可以理解为输入文本对应的编码向量。
在一种可能的实现方式中,利用第一编码向量和第二编码向量,获得输入文本向量,包括:获得第二编码向量中每一词向量与第一编码向量中的特征向量对应的权重,基于权重,获得输入文本向量。
在一些实施例中,获得第一编码向量和第二编码向量后,能够通过自注意力(self-attention)机制将第一编码向量和第二编码向量进行结合,用于学习词与词之间的关系,编码其上下文信息,从而获得输入文本向量。
示例性的,在attention机制中,纠错模型为第二编码向量的每个词向量对应的第一编码向量序列中的每一特征向量赋予不同的权重,从而抽取出更加关键以及重要的信息,使纠错模型能够做出更加准确的语法纠错判断,同时不会对纠错模型的计算和存储带来更大的开销。
比如,在注意力机制(attention)机制中,当前时刻t的编/解码向量st(如第二编码向量中的时刻t对应的词向量)在使用注意力机制对另一个向量序列{hj}(如第一编码向量序列)进行语义抽取时,需要计算编/解码向量st在向量序列{hj}中对应的权重αtj。其中,第一编码向量序列和第二编码向量序列的序列长度一致或存在对应关系。t和j为自然数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110261517.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:卧式压缩机
- 下一篇:一种TAGAT的合成方法