[发明专利]一种神经网络蒙汉机器翻译方法有效
申请号: | 201711066025.1 | 申请日: | 2017-11-02 |
公开(公告)号: | CN107967262B | 公开(公告)日: | 2018-10-30 |
发明(设计)人: | 苏依拉;乌尼尔;刘婉婉;牛向华;赵亚平;王宇飞;张振;孙晓骞;高芬 | 申请(专利权)人: | 内蒙古工业大学 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 段俊涛 |
地址: | 010080 内蒙古自治区呼*** | 国省代码: | 内蒙古;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 神经网络 机器翻译 方法 | ||
一种神经网络蒙汉机器翻译方法,首先对大规模蒙汉双语语料做规范化处理,在此基础上构建出双语字典;然后进行建模,最终基于所搭建模型,实现机器翻译;其特征在于,所述建模包括编码器建模、解码器建模以及蒙汉双语词对齐所需的注意力层的建模,从而针对蒙古语特定词性的词语进行相应处理,以达到最好的翻译效果和最小的语义困惑度。本发明首先在翻译模型中包含了蒙古语词法信息,用编码器网络对蒙古语的编码进行了较为准确的刻画;其次,算法保证了蒙汉翻译质量;最后,通过运用神经网络,把蒙汉双语翻译问题分解为对蒙古语的编码和对汉语的解码两部分,提出了可扩展性强的神经网络算法,有效提高蒙汉机器翻译译文流利度和翻译质量。
技术领域
本发明属于机器翻译技术领域,特别涉及一种神经网络蒙汉机器翻译方法。
背景技术
随着目前包含信息技术在内的一系列网络服务的蓬勃发展,自然语言处理 尤其是机器翻译在互联网发展过程中起到至关重要的作用。许多的大型搜索企 业和服务中心例如谷歌、百度等针对机器翻译都进行了大规模的研究,为获取 机器翻译的高质量译文而不懈努力。
然而,随着科学家和语言学家几十年的不断努力,机器翻译在发展的过程 中也暴露出无法忽略的问题——歧义词处理、未登录词处理以及双语结构差异 而存在的编码混乱导致的译文质量低等问题。目前,国外很多知名大学和企业 例如斯坦福大学自然语言处理小组、谷歌NLP小组和Facebook神经机器翻译部 门都在相关领域的翻译任务中对上述问题提出了一定的假设解决方案并实施, 无论是在英法翻译任务还是在英中翻译任务中,都没有一种兼容性很强的处理 方法来解决上述出现的问题。实验结果表明,针对每一种翻译任务,有且仅存 在一种符合源语言和目标语言两种语言特性的处理方案来缓解编码过程造成的 一系列问题。有文献指出,从统计机器翻译的盛行的20世纪90年代到利用神 经网络进行翻译建模的21世纪前10年,虽然在大体上机器翻译质量得到的不 小的提高,但是在歧义词处理,非字典词语的替换等问题上仍没有得到有效的 解决。因此针对翻译质量的有效提高迫在眉睫。
目前,利用神经网络技术将处理过后的双语语料进行压缩编码并导入神经 网络节点中,通过神经网络层与层之间和节点与节点之间的参数变换和传递来 不断对语义进行学习。虽然能够通过了解句子意思的方式在一定程度上缓解统 计翻译方法中出现的很多问题,例如译码不明、错译、未登陆词处理等问题, 但是在精准度上面相比人工翻译仍然存在不小的劣势。
最新的研究显示,谷歌、百度和全国知名院校的机器翻译工作进展中存在 或多或少的翻译问题,有文献指出,由于世界语言的复杂性,没有一个完全解 决翻译问题的系统出现,因此在粗译的前提下,如何做好细译的工作是各大企 业院校的工作重点。
本系统翻译利用CPU和GPU并行工作的方式对语料进行处理使得速度提 高近一倍,且通过设定的学习率对语料进行学习可以有效的缓解学习语料语义 表达过程中存在的局部最优问题和由于快速收敛导致的编码质量低的问题,通 过设定特殊的结构和算法来改进整体系统的质量。
发明内容
为了克服上述中主要存在的翻译过程中的漏译、错译、未登录词处理等缺 点,本发明的目的在于提供一种神经网络蒙汉机器翻译方法,针对小语料中的 数据稀少和字典小的问题,在降低系统复杂度,对用户可视化系统结构的条件 下保证用户翻译服务质量,从而完善蒙汉机器翻译系统,达到较好译文翻译的 目标。
为了实现上述目的,本发明采用的技术方案是:
一种神经网络蒙汉机器翻译方法,首先对大规模蒙汉双语语料做规范化处 理,在此基础上构建出双语字典;然后进行建模,最终基于所搭建模型,实 现机器翻译;所述建模包括编码器建模、解码器建模以及蒙汉双语词对齐所 需的注意力层的建模,从而针对蒙古语特定词性的词语进行相应处理,以达 到最好的翻译效果和最小的语义困惑度。
所述对大规模蒙汉双语语料做规范化处理是根据分词要求和蒙古语特定 词性短语或单词进行切分,其中汉语分词和蒙古语动词词根形态切分建模公 式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古工业大学,未经内蒙古工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711066025.1/2.html,转载请声明来源钻瓜专利网。