[发明专利]基于深层神经网络翻译模型的解码方法有效
申请号: | 201810270468.0 | 申请日: | 2018-03-29 |
公开(公告)号: | CN108647214B | 公开(公告)日: | 2020-06-30 |
发明(设计)人: | 张家俊;周龙;马宏远;杜翠兰;张翠;赵晓航;宗成庆 | 申请(专利权)人: | 中国科学院自动化研究所;国家计算机网络与信息安全管理中心 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/289;G06N3/04 |
代理公司: | 北京瀚仁知识产权代理事务所(普通合伙) 11482 | 代理人: | 郭文浩;陈晓鹏 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深层 神经网络 翻译 模型 解码 方法 | ||
1.一种基于深层神经网络翻译模型的解码方法,其特征在于,所述方法包括:
步骤1,对待翻译语句进行分词处理,得到源语言词汇;
步骤2,使用自动对齐工具对预设的翻译模型词汇表中的语料进行词对齐,得到与所述源语言词汇对齐的目标语言单词;
步骤3,基于步骤2所得到的目标语言单词,确定出所述待翻译语句的目标端动态词汇表,根据预先构建的翻译模型,使用柱搜索方法解码出的语句作为所述翻译模型的输出;
其中,
所述翻译模型为基于门限残差机制和平行注意力机制的深层神经网络,所述“基于门限残差机制和平行注意力机制的深层神经网络”的构建方法为:
步骤31,利用长短时记忆网络搭建基于深层神经网络的翻译模型主体结构;
步骤32,使用sigmoid函数作为所述门限残差所在的门限残差网络模型的门控制激活函数,将所述长短时记忆网络的输入与所述门限残差网络模型的门限按位相乘得到所述门限残差网络模型的门限输出;
步骤33,将所述长短时记忆网络的初始输出和所述门限输出相加作为所述门限残差网络模型的输出,叠加到所述翻译模型相应的中间层的输入中;
步骤34,将所述翻译模型的解码器的底层和编码器的底层相连,进行注意力操作计算,并将所计算出的注意力作为所述解码器底层的所述长短时记忆网络的输出向上层传递;
步骤35,将所述翻译模型的所述解码器的顶层和所述编码器的顶层相连,进行注意力操作计算,利用所计算出的注意力输出预测目标语言单词。
2.根据权利要求1所述的基于深层神经网络翻译模型的解码方法,其特征在于,所述翻译模型,其构建方法为:
对训练用数据中的双语句子对进行分词和词频统计,确定所述翻译模型词汇表大小;
采用极大似然目标函数作为约束函数对初始翻译模型进行参数训练;
其中,
所述双语句子对为存在对应关系的一对源语言语句和目标语言语句。
3.根据权利要求2所述的基于深层神经网络翻译模型的解码方法,其特征在于,所述翻译模型词汇表包括目标端词汇表和源端词汇表;
“对训练用数据中的双语句子对进行分词和词频统计,确定翻译模型词汇表大小”,包括:
对所述双语句子对进行词法分析以进行自动分词;
统计所述源语言语句和所述目标语言语句在自动分词后的词频和占比,确定所述目标端词汇表和所述源端词汇表大小。
4.根据权利要求1所述的基于深层神经网络翻译模型的解码方法,其特征在于,“采用长短时记忆网络搭建基于深层神经网络的翻译模型主体结构”,包括通过如下公式构建所述深层神经网络翻译模型:
it=δ(Wixt+Uiht-1+bi)
ft=δ(Wfxt+Ufht-1+bf)
ot=δ(Woxt+Uoht-1+bo)
ht=ot⊙tanh(ct)
其中,xt是当前时刻的输入,δ是sigmoid函数,ht-1是t-1时刻的隐层状态,W、U、b为模型参数,i、f、o分别表示输入门、遗忘门、输出门;遗忘门ft控制着每一个内存单元需要遗忘多少信息,输入门it控制着每一个内存单元加入多少新的信息,输出门ot控制着每一个内存单元输出多少信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所;国家计算机网络与信息安全管理中心,未经中国科学院自动化研究所;国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810270468.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于耦合关系分析的组合关键字语义相关度评估方法
- 下一篇:多功能翻译机