[发明专利]融入分类词典的汉越神经机器翻译集外词处理方法有效
| 申请号: | 201910634905.7 | 申请日: | 2019-07-15 |
| 公开(公告)号: | CN110457715B | 公开(公告)日: | 2022-12-13 |
| 发明(设计)人: | 赖华;贾承勋;余正涛;朱恩昌;车万金;文永华;高盛祥 | 申请(专利权)人: | 昆明理工大学 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/58;G06F40/289 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 650093 云*** | 国省代码: | 云南;53 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 融入 分类 词典 神经 机器翻译 集外词 处理 方法 | ||
本发明涉及融入分类词典的汉越神经机器翻译集外词处理方法,属于自然语言处理技术领域。本发明对集外词进行了分类,并且发现不同类别的集外词可以采用不同的方法处理,然后有针对性的构建出分类词典,其中双语词典用以解决词表外稀有词的翻译问题,实体词典用以解决实体词翻译不准确的问题,规则词典用以解决数字、符号、时间和日期等词的翻译问题,然后在模型的前处理阶段通过查询分类词典进行集外词识别后,在模型的编码端对集外词进行标签替换,经过模型翻译后得到带有标签的翻译结果,再通过查询分类词典对标签进行翻译恢复。本发明通过将分类词典融入神经机器翻译,能更加准确的对集外词进行翻译,从而提升神经机器翻译系统的性能和效果。
技术领域
本发明涉及融入分类词典的汉越神经机器翻译集外词处理方法,属于自然语言处理技术领域。
背景技术
神经机器翻译是近几年提出的机器翻译方法,在资源丰富的翻译任务中取得了很好的效果,但在低资源语言神经机器翻译中的效果并不理想。为了控制与目标词汇量大小成比例增长的计算复杂性,大多数神经机器翻译系统将词表限制为只包含平行数据中的3万到8万个常见单词,除此以外的词称为集外词,进行翻译时将集外词转换为UNK符号。这种方法的明显的问题是神经机器翻译模型不能有效地翻译集外词,无意义的UNK符号会增加句子的含糊性,直接影响了神经机器翻译的翻译质量。由于资源稀缺型语言的神经机器翻译本身语料规模不足,所以词语的覆盖程度较小,直接导致了词表中的词语较少,所以集外词问题会更加严重,导致模型的翻译效果很不理想。
集外词问题的处理是神经机器翻译中的研究热点,很大程度的影响了系统的翻译性能。在资源稀缺型语言的神经机器翻译中,集外词问题一般是通过找寻其他翻译资源,来缓解此类问题,但这样做会直接额影响到周围单词的翻译效果,导致上下文语义的不完整。目前对于处理集外词问题有以下几种主流方法:第一类方法侧重于对softmax的改进和拷贝机制,但这类方法不适用于差距较大的语言的翻译;第二类方法将输入/输出本身的单位从单词改为较小的分辨率以及字符级相关工作,这类方法的主要优点是它可以减少罕见单词的问题,但序列的长度显着增加,使训练通常变得更加困难;第三类方法使用来构建大规模词典集和替换技术,引入未知单词修补的后处理步骤以缓解此问题,但对于存在一对多、多对多的词对齐关系时,难以对集外词进行有效处理,此类方法都是通过计算语义相似度对UNK符号进行替换,使用的都是通用词典,并没有对集外词本身的特点进行分类研究。本专利方法解决集外词问题的方法是将集外词分为三类,针对其特性构建出分类词典,并在模型的编码端查阅分类词典将数据中的集外词替换为标签,然后通过模型翻译后再查阅分类词典将标签进行恢复,实验中使用的模型为Google nmt(GNMT)、GNMT+BPE和Transformer。
发明内容
本发明提供了融入分类词典的汉越神经机器翻译集外词处理方法,以用于解决以下问题:集外词的处理方法大多没有考虑到语言的普遍适用性;通过寻找其他资源来缓解此类问题,会影响到集外词周围单词的翻译效果,导致上下文翻译不完整;通过构建通用词典来替换集外词,会产生一词多译的问题难以对集外词进行有效处理的问题。
本发明针对不同集外词的特点进行研究,提出了分类思想,对集外词进行分类处理来构建分类词典,并将其融入到神经机器翻译模型中处理集外词问题,解决了神经机器翻译中集外词对翻译效果产生的不良影响。
本发明的技术方案是:融入分类词典的汉越神经机器翻译集外词处理方法,所述融入分类词典的汉越神经机器翻译集外词处理方法的具体步骤如下:
Step1、数据的收集:
需要获取的数据为汉语-越南语数据,目前并没有公开的汉越平行语料的数据集,网络爬虫是一种以获取网络数据为目的的方法,按照一定规则来自动请求万维网网站的程序或脚本。使用爬虫技术获取汉越数据是目前最好的数据收集方法。网络爬虫获得训练所需数据后,建立训练的数据集,并分成训练集和测试集;
Step2、分类词典的构建:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910634905.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于时序主题模型的自然语言生成方法
- 下一篇:一种语音输出方法及移动终端





