[发明专利]一种基于树到序列的蒙汉机器翻译方法在审
申请号: | 201910922673.5 | 申请日: | 2019-09-27 |
公开(公告)号: | CN110728155A | 公开(公告)日: | 2020-01-24 |
发明(设计)人: | 苏依拉;薛媛;赵旭;卞乐乐;范婷婷;张振 | 申请(专利权)人: | 内蒙古工业大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/289;G06F40/12;G06N3/04 |
代理公司: | 61215 西安智大知识产权代理事务所 | 代理人: | 段俊涛 |
地址: | 010080 内蒙古自治区呼*** | 国省代码: | 内蒙;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明一种基于树到序列的蒙汉机器翻译方法,采用树到序列NMT模型,扩展了具有源侧短语结构的序列到序列模型,在模型中加入了自注意力机制,这种自注意力机制不仅可以使得解码器在每一步主动查询最相关的信息,并且还大大缩短了信息流动的距离,另外它可以使得解码器在生成翻译的单词的同时能和源语句的短语以及单词进行对齐。120万蒙汉双语平行语料数据集的实验结果表明,本发明的模型明显优于序列到序列的注意力NMT模型,并且与最先进的树到串SMT系统相比更胜一筹。 | ||
搜索关键词: | 解码器 注意力机制 单词 机器翻译 短语 短语结构 信息流动 序列模型 主动查询 对齐 数据集 语料 源侧 语句 平行 注意力 翻译 | ||
【主权项】:
1.一种基于树到序列的蒙汉机器翻译方法,采用编码器-解码器结构的NMT模型作为翻译流程的整体框架,其特征在于,所述编码器由序列编码器和基于树的编码器组成,序列编码器和基于树的编码器分别生成一个句子向量,其中,所述基于树的编码器中,基于头部驱动的短语结构语法,源语句由多个短语单元组成,并表示为二叉树,基于树的编码器为使用transformer构造的Tree-transformer结构,二叉树中的每个结点用transformer单元表示,从而在源语句的短语结构之后,以自下而上的方式递归地编码句子以产生句子的由结构信息组成的向量表示,初始解码器s
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古工业大学,未经内蒙古工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910922673.5/,转载请声明来源钻瓜专利网。