[发明专利]一种基于词典和seq2seq预训练机制的中医古籍翻译方法有效

专利信息
申请号: 201910020459.0 申请日: 2019-01-09
公开(公告)号: CN109740169B 公开(公告)日: 2020-10-13
发明(设计)人: 高升;徐亨如;李思;徐雅静 申请(专利权)人: 北京邮电大学
主分类号: G06F40/129 分类号: G06F40/129;G06F40/242;G06N3/04
代理公司: 暂无信息 代理人: 暂无信息
地址: 100876 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 词典 seq2seq 训练 机制 中医 古籍 翻译 方法
【说明书】:

发明公开了一种基于词典和seq2seq预训练机制的中医典籍古文翻译方法,属于信息处理领域。该方法的特征包括:先预训练一个通用的seq2seq古文翻译模型,再基于词典,在中医专业知识的指导下,训练针对中医典籍的古文翻译模型。具体特征为:编码器和中医专业知识编码器分别用循环神经网络将古文编码得到内容向量,中医专业知识编码得到专业向量;将内容向量作为另一个循环神经网络的初始参数,输入特定开始字符,开始解码;将上一时刻解码器的输出、内容向量、专业向量拼接作为下一时刻解码器的输入,直至解码器输出结束符。本发明通过预训练通用的seq2seq古文翻译模型,并基于词典,在中医专业知识的指导下对中医典籍古文翻译进行优化,取得了很好的应用效果。

技术领域

本发明涉及信息处理领域,特别涉及一种基于词典和seq2seq预训练机制的中医古籍翻译方法。

背景技术

机器翻译应用非常广泛,传统的机器翻译基于统计的方法,需要耗费大量的人力,且效果不好。目前主流的方法是基于神经网络的神经翻译,基于seq2seq的神经翻译方法和基于注意力机制的神经翻译方法都取得了很好的效果。seq2seq又称编码器-解码器方法,由编码器和解码器组成,分为编码和解码两个阶段。在编码阶段,将待翻译文本编码成定长向量,在解码阶段,根据编码得到的定长向量以及前一个词翻译的结果,得到下一个词的翻译结果。神经机器翻译已经开始商用,但在汉语古文到现代汉语的翻译中还没有特别好的效果,尤其是在中医典籍古文翻译领域,还没有成熟的方法和模型。主要原因有两点,一是目前中医古文翻译适用语料很少,难以训练复杂的神经网络模型。二是中医知识非常专业,使用通用的翻译模型翻译出的结果往往质量很低。本发明为了解决上述问题,提出了一种基于词典和seq2seq预训练机制的中医典籍古文翻译方法。

发明内容

为了解决现有的技术问题,本发明提供了一种基于词典和seq2seq预训练机制的中医典籍古文翻译方法,方案如下。

第一部分:训练通用的seq2seq古文翻译模型。

神经网络模型需要大量的语料进行模型训练,由于中医典籍古文翻译的训练语料很少,目前世面上只有《黄帝内经》、《难经》、《伤寒杂病论》、《神农本草经》中医四大经典有现代汉语翻译版本,进行人工标准对人力资源消耗过大,因此,我们先训练通用的古文翻译模型,通用的古文翻译模型,训练语料来源于古诗,古词,古文,这些古诗词、古文都有翻译好的翻译版本,可以训练出通用的seq2seq古文翻译模型。

步骤一,建立古文词表和现代汉语词表,并将所有的古文和现代汉语的每个词语都映射为相应的词向量。

步骤二,将古文的词向量拼接,即将输入的古汉语文本映射为一个古文文本矩阵。

步骤三,编码阶段,使用一个循环神经网络对古文文本矩阵进行编码,将古文映射成一个定长的向量。

步骤四,解码阶段,根据编码器得到的定长向量,作为另一个循环神经网络的初始参数,拼接特定的开始字符和步骤三得到的定长向量,作为解码器的输入,开始解码。

步骤五,拼接上一个时刻解码器的输出和步骤三得到的定长向量,作为下一个时刻解码器的输入,每个时刻的输出经过一个前向神经网络,并在现代汉语词表上得到翻译结果,直到解码器输出的翻译结果为结束符,解码结束。

第二部分:在通用的seq2seq古文翻译模型基础上,由专业的中医知识指导,训练针对中医典籍的古文翻译模型。

第一部分训练的是一个通用的古文翻译模型,这个模型训练语料充分,可以在通用领域取得较好效果,但由于中医领域的高度专业化,我们需要针对中医典籍古文翻译进行优化。这部分的训练语料为《黄帝内经》、《难经》、《伤寒杂病论》、《神农本草经》中医四大经典,及他们的现代汉语翻译文章。

步骤一,由第一部分得到的古文词表和现代汉语词表,将中医典籍的古文和现代汉语映射成词向量。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910020459.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top