[发明专利]基于指针生成网络实现占位符消歧的蒙汉机器翻译方法有效

专利信息
申请号: 202011393623.1 申请日: 2020-12-03
公开(公告)号: CN112395892B 公开(公告)日: 2022-03-18
发明(设计)人: 苏依拉;程永坤;崔少东;张妍彤;仁庆道尔吉;石宝 申请(专利权)人: 内蒙古工业大学
主分类号: G06F40/58 分类号: G06F40/58;G06N3/04;G06N3/08
代理公司: 西安智大知识产权代理事务所 61215 代理人: 段俊涛
地址: 010080 内蒙古自治区呼*** 国省代码: 内蒙古;15
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 指针 生成 网络 实现 占位 符消歧 机器翻译 方法
【说明书】:

一种基于指针生成网络实现占位符消歧的蒙汉机器翻译方法,基于编码器‑解码器架构,其特征在于,还包括辅助网络和骨干网络,所述辅助网络为每个输入源词汇位置生成一个二进制门,动态地选择要关注的词汇,所述骨干网络为带有门控机制的注意力的指针生成网络;编码阶段,经编码器的词嵌入层,将源文编码成一个隐藏层状态,再由所述门控机制决定来自当前状态的信息是流入还是被占位符替换;解码阶段,利用指针生成网络复制源文能力和生成新词汇能力,搭配占位符上下文语境进行消歧,给出符合上下文语义的精准词义,在最后数据输出前,利用附加模块进行语言学检查,检测到可能翻译异常的情况做出标注,通过调整相关参数以达到最好的翻译效果。

技术领域

发明属于机器翻译技术领域,特别涉及一种基于指针生成网络实现占位符消歧的蒙汉机器翻译方法。

背景技术

随着全球各个地区经济的快速发展,不同语种之间的交流越来越受到重视,机器翻译顺应而生。近代互联网的发展,更是带动着机器翻译研究的热潮,但目前的机器翻译还未能达到人工翻译的效果。

历经基于规则的翻译,统计机器翻译,神经网络机器翻译三大阶段,翻译效果越来越显著,但一直存在的问题未能得到真正的解决,一词多义,语法问题等,因此针对提高机器翻译仍有很长的路要走。

蒙古文的单词由词根+词缀的方式组合,这就出现了现今利用字符或者子词级模型,期望利用更小粒度来进行翻译,这在一定程度上缓解了未登录词现象,Transformer模型中使用了Masked Multi-Head Attention进行解码,通过对未解码信息Mask掉,一定程度上解决了一词多义的问题。

目前,机器翻译中利用word2vec产生的词表示是静态的,不考虑上下文的,因此需要的不仅仅是一个词到向量的单射,而应该学习一个考虑上下文的函数(模型)。

随着Transformer模型的出现,也随之出现了BERT,相比以前的word2vec为代表的词嵌入方法,BERT模型进一步增加词向量模型泛化能力,充分描述字符级、词级、句子级甚至句间关系特征,一定程度上能建模一词多义现象,但它需要大量的数据集,针对蒙汉翻译这种语料集少的语言,具有很大的影响。

发明内容

为了克服上述现有技术的缺点,本发明的目的在于提供一种基于指针生成网络实现占位符消歧的蒙汉机器翻译方法,在翻译过程涉及到辅助网络和带注意力机制的网络,配合指针生成网络,实现了占位符消歧,对翻译结果用语言学检测来得到接近人工翻译的蒙汉效果。

为了实现上述目的,本发明采用的技术方案是:

一种基于指针生成网络实现占位符消歧的蒙汉机器翻译方法,基于编码器-解码器架构,其特征在于,还包括辅助网络和骨干网络,所述辅助网络为每个输入源词汇位置生成一个二进制门,动态地选择要关注的词汇,所述骨干网络为带有门控机制K的注意力的指针生成网络;编码阶段,经编码器的词嵌入层,将源文编码成一个隐藏层状态,再由所述门控机制K决定来自当前状态的信息是流入还是被占位符替换,其中K={k(1),k(2),…,k(i),…k(T)},T为二进制门的数量,k(i)表示第i个二进制门,k(i)取值为1或0,k(i)=1时当前信息流入,k(i)=0则被占位符替换;解码阶段,利用指针生成网络复制源文能力和生成新词汇能力,搭配占位符上下文语境进行消歧,给出符合上下文语义的精准词义。

与现有技术相比,本发明的有益效果是:首先借助辅助网络动态地选择需要注意的词汇,通过附加门的取值决定占位符的替换;其次,借助指针生成网络生成式能力解码出新词汇;最后,对输出进行语言学检测,来捕获和备注异常,比起传统翻译,利用占位符更加精准多义词的词义或新词替代,并由“语言学检测”来检测完善,译出高标准结果。

附图说明

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古工业大学,未经内蒙古工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011393623.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top