[发明专利]一种融合发音特征汉语-越南语统计机器翻译方法在审

专利信息
申请号: 201910382004.3 申请日: 2019-05-06
公开(公告)号: CN110096715A 公开(公告)日: 2019-08-06
发明(设计)人: 史树敏;罗丹;黄河燕;陈友英;苏超 申请(专利权)人: 北京理工大学
主分类号: G06F17/28 分类号: G06F17/28
代理公司: 北京理工正阳知识产权代理事务所(普通合伙) 11639 代理人: 唐华
地址: 100081 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种融合发音特征汉语‑越南语统计机器翻译方法,属于机器翻译及特征融合应用技术领域。本方法通过汉语‑越南语平行语料,利用统计得到的汉语拼音声母与越南语的元音、韵母与辅音以及声调之间的相关性,将基于纯汉字的汉语语料转换为汉字辅以拼音‑声母‑韵母‑声调的格式,将基于纯音节的越南语语料转换成音节辅以元音‑辅音‑声调的格式;再将新格式语料输入机器翻译模型中进行训练,充分利用汉越双语独特的语言规律信息。所述方法降低了稀缺资源统计机器翻译对大规模语料的依赖,解决了传统基于短语的统计机器翻译不能融合发音特征的缺点,提升资源稀缺型语言间的机器翻译性能。
搜索关键词: 统计机器翻译 越南语 机器翻译 发音特征 语料 汉语 声调 音节 韵母 辅音 元音 融合 汉字 汉语拼音声母 应用技术领域 大规模语料 特征融合 稀缺资源 语言规律 短语 声母 新格式 转换 拼音 平行 语言 统计
【主权项】:
1.一种融合发音特征汉语‑越南语统计机器翻译方法,其特征在于:涉及的汉语‑越南语发音相关性及概念如下:1)越南语与汉语一样无时态及动词变化,属于声调语言,其构成类似汉语拼音,由元音、辅音以及声调组成;2)越南语与汉语同属于孤立语言,单词之间没有空隙;3)汉语拼音包含23个声母、36个韵母以及四个声调;越南语包含23个元音、16个辅音以及五个声调;4)一个越南语发音对应唯一的一个词,而与之相对的汉语拼音的发音,对应多个汉字;本发明涉及的相关定义如下:定义1:发音相关性,包括声母相关性、韵母相关性以及声调相关性;其中,声母相关性是指汉语拼音声母与越南语元音之间的关联度;韵母相关性是指汉语拼音韵母与越南语辅音之间的关联度;声调相关性是指汉语拼音声调与越南语声调之间的关联度;定义2:因子,指的是在基于因子的统计机器翻译模型生成语言模型时,计算源语言与目标语言翻译概率的单位;在基于短语的统计机器翻译中,首先会把源语言和目标语言的完整语句分离成短语,再基于这些短语,计算源语言到目标语言的翻译概率;而在基于因子的统计机器翻译中,翻译过程不再基于短语,而是基于因子;其中,统计机器翻译模型,即Factored Translation Model,缩写为FTM;定义3:汉越双语语料,指的是汉语‑越南语对照的双语文档;对于汉语语料中的每一个汉语语句,在越南语语料中都有语义相同的一个越南语语句与之对应;定义4:翻译过程,指的是生成汉语‑越南语语言模型的过程;定义5:生成过程,指的是利用翻译过程生成的语言模型完成源语言到目标语言的翻译,即生成目标语言;定义6:BLEU值,指的是机器翻译领域通用的翻译质量评价指标;翻译过程和生成过程是统计机器翻译包含的两个过程;所述汉语‑越南语统计机器翻译方法,包括以下步骤:步骤一、通过汉越双语语料,计算汉语‑越南语的声母相关性;汉语拼音声母与越南语元音之间的声母相关性通过公式(1)进行计算;其中,n是在汉语语料中提取的与一个越南语元音相关的不同汉语拼音声母的个数,i是这些汉语拼音声母的序号,j是同一个汉语拼音声母的不同汉语的序号,mi是第i个汉语拼音声母代表的汉语的个数,表示与一个越南语元音相关的第i个汉语拼音声母的个数;表示与一个越南语元音相关的汉语个数,代表第i个汉语拼音声母的第j个汉语;步骤二、通过汉越双语语料,获取汉语‑越南语的韵母相关性;其中,越南语辅音与汉语拼音韵母的韵母相关性通过公式(2)进行计算;其中,n是在汉语语料中提取的与一个越南语辅音相关的汉语拼音韵母的个数,t是这些汉语拼音韵母的序号,k是同一个汉语拼音韵母的不同汉语的序号,mt是第t个汉语拼音韵母的汉语的个数,表示与一个越南语辅音相关的第t个汉语拼音韵母的个数;表示与一个越南语辅音相关的汉语个数,表示第t个汉语拼音韵母的第k个汉语;步骤三、通过汉越双语语料,直接获取汉语‑越南语声调相关性;步骤四、分别对汉语语料以及越南语语料的声调进行数字替代并对发音特征分离,包括如下子步骤:步骤4.1根据步骤三中统计得到的声调相关性,将汉语语料和越南语语料中的声调用连续的数字代替;步骤4.2对汉语语料进行发音特征分离:将纯汉字形式的汉语语句转换成声母、韵母以及声调的文本,即转换后文本,对于转换后文本的每个部分word,如果word是数字,就转换为word|word|word|形式,如果word是拼音,则转换成consonant|vowel|tone形式;步骤4.3对越南语语料进行发音特征分离:对纯音节的越南语语料转换成元音、辅音以及声调的文本,即转换后文本;对于转换后文本的每个部分word,如果word是数字,就转换为word|word|word|形式,如果word是音节,则转换成consonant|vowel|tone形式;至此,经过步骤4.1、步骤4.2以及步骤4.3,获得发音特征分离的汉越双语语料;步骤五、提取步骤四获得的发音特征分离的汉越双语语料的因子,具体为:在汉语语料中,提取汉语、发音PRc、汉语拼音声母IN,汉语拼音韵母FI、以及汉语拼音声调Toc作为CF因子;在越南语语料中,提取越南语、发音PRv、越南语元音CO、越南语辅音VO以及越南语声调TOv作为VF因子;步骤六、设置CF因子和VF因子间的对应并采用FTM生成汉语‑越南语语言模型,具体步骤如下;步骤6.1设置CF因子和VF因子间的对应,具体为:汉语语料中的汉语对应越南语语料的音节,汉语拼音声母IN对应越南语元音CO,汉语拼音韵母FI对应越南语辅音VO,汉语拼音声调TOv对应越南语声调VF;具体的单个汉语拼音声母IN与单个越南语元音CO,单个汉语拼音韵母FI与单个越南语辅音VO,单个汉语拼音声调TOv与单个越南语声调VF的对应,由步骤一、步骤二以及步骤三计算获取的汉语‑越南语的声母相关性、韵母相关性、声调相关性进行设置;步骤6.2将步骤四获得的发音特征分离的汉越双语语料输送到FTM中,FTM基于步骤五中提取的CF因子和VF因子,计算翻译概率;步骤6.3将汉语作为源语言,越南语作为目标语言,FTM生成一个汉语‑越南语语言模型;将越南语作为源语言,汉语作为目标语言,FTM生成一个越南语‑汉语语言模型;至此,经过步骤6.1、步骤6.2以及步骤6.3组成了翻译过程;步骤七、使用步骤6.3获得的语言模型完成翻译,汉语翻译越南语的过程中,语言模型生成音节‑元音‑辅音‑声调形式的越南语,越南语翻译汉语的过程中,语言模型生成汉字‑声母‑韵母‑声调形式的汉语;步骤七即生成过程;步骤八、将步骤七中生成的音节‑元音‑辅音‑声调形式的越南语转换成纯音节的越南语,将生成的汉字‑声母‑韵母‑声调形式的汉语转换成纯汉字的汉语。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910382004.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top