[发明专利]融入分类词典的汉越神经机器翻译集外词处理方法有效
| 申请号: | 201910634905.7 | 申请日: | 2019-07-15 |
| 公开(公告)号: | CN110457715B | 公开(公告)日: | 2022-12-13 |
| 发明(设计)人: | 赖华;贾承勋;余正涛;朱恩昌;车万金;文永华;高盛祥 | 申请(专利权)人: | 昆明理工大学 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/58;G06F40/289 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 650093 云*** | 国省代码: | 云南;53 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 融入 分类 词典 神经 机器翻译 集外词 处理 方法 | ||
1.融入分类词典的汉越神经机器翻译集外词处理方法,其特征在于:所述融入分类词典的汉越神经机器翻译集外词处理方法的具体步骤如下:
Step1、语料收集:收集汉语-越南语语料,并分为训练集、测试集和验证集;
Step2、分类词典的构建:分析集外词的特点,将集外词分为三类,包括稀有词、实体词、以及数字、符号、日期和时间,并有针对性的构建出分类词典,分类词典包括双语词典、实体词典和规则词典;
Step3、分类词典的融入:通过查找分类词典对数据中的集外词进行识别,在模型的编码端对三类集外词进行标签替换,然后将标签替换后的数据通过模型翻译成带有标签的目标语言,最后查阅分类词典将标签恢复;
Step4、同类集外词处理:当一句话中出现多个同类集外词时,对同类标签采用标记排序进行定位标识;
Step5、模型训练及翻译:在步骤Step1、Step2、Step3、Step4的基础上,对融入了分类词典的神经机器翻译模型进行训练,然后把待翻译的数据通过训练好的模型进行翻译,得到最终的翻译结果;
汉越神经机器翻译分类词典的融入,将分别从三个方面对双语词典、实体词典和规则词典的融入进行说明,由于在前处理阶段构建的双语词典和实体词典之间存在部分重复词,在融入分类词典时,考虑到实体词典的标签多样性,通过设置优先级的方法优先查阅实体词典;
Step3.1双语词典的融入方法:
对于双语词典的融入,通过查找双语词典计算语义相似度,寻找句子中不常用的词表外的词,确定位置后统一用使用自定义的标签进行替代,然后通过模型得到相应的翻译结果,再通过查找双语词典将标签恢复为相应的翻译;
Step3.2实体词典的融入方法:
对于实体词典的融入,首先通过查找实体词典进行实体词的识别发现,找出句子中的实体词,确定位置后对实体词进行标签替换,其中对人名、地名、组织机构名和专有名词分别采用不同的标签进行替换,在通过模型得到翻译结果后,查找实体词典将标签进行翻译恢复;
Step3.3规则词典的融入方法:
对于规则词典的融入,处理方式与双语词典和实体词典不同,分为直接融入和间接融入;直接融入是指数字和符号,在翻译前后不会改变本身的形式,间接融入是指时间和日期,在翻译前后会有固定的变化,这种情况则通过正则表达式对这类词进行规则定义,然后再将其进行融入,融入的过程是查找规则词典进行规则词的识别,然后统一进行标签替换,其中对数字、符号、时间和日期分别采用四个不同的标签进行替换,对句子进行翻译后,通过查找规则词典再对标签进行翻译恢复。
2.根据权利要求1所述的融入分类词典的汉越神经机器翻译集外词处理方法,其特征在于:所述步骤Step2中,将集外词分为三类来构建分类词典,一是稀有词,常规词表以外的词,利用常规词表以外的词构建双语词典;二是实体词,包括人名、地名、组织机构名和专有名词,利用实体词构建实体词典;三是数字、符号、日期和时间,将这些词利用基于规则的方法进行正则化处理构建规则词典。
3.根据权利要求1所述的融入分类词典的汉越神经机器翻译集外词处理方法,其特征在于:所述步骤Step2中,对于双语词典的构建,先对语料进行对齐处理,然后排除词表内的词来构建双语词典;对于实体词典的构建,主要基于维基百科进行词条抽取;对于规则词典,数字和符号这类词,在翻译前后不会改变词的本身形式,直接进行翻译;对于日期和时间这类词,利用基于规则的方法用正则表达式进行处理,从而构建成规则词典。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910634905.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于时序主题模型的自然语言生成方法
- 下一篇:一种语音输出方法及移动终端





