[发明专利]基于音节嵌入的藏汉人名音译方法有效
申请号: | 201810059615.X | 申请日: | 2018-01-22 |
公开(公告)号: | CN108197122B | 公开(公告)日: | 2018-11-23 |
发明(设计)人: | 夏建华;张进兵;韩立新 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 董建林 |
地址: | 211100 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种基于音节嵌入的藏汉人名音译方法,利用藏语音节和汉语音节来训练音节成分袋BOC模型,分别得到藏语音节嵌入和汉语音节嵌入表示;根据音节的嵌入表示来实现从藏语人名到汉语人名的音译序列生成。本发明摒弃了传统音译过程中借助语音作为平行语料之间的相似度量,利用BOC模型得到的音节嵌入能够克服平行语料库规模小而导致某些字词缺失对音译系统的影响。本发明克服了传统方法对于缺失字词的音译的局限性,提高了音译结果中字词的多样性和扩展了可候选项,得到更好的音译结果。 | ||
搜索关键词: | 音节 嵌入 嵌入的 汉语 平行语料库 相似度量 序列生成 音译系统 成分袋 候选项 语料 平行 语音 多样性 | ||
【主权项】:
1.基于音节嵌入的藏汉人名音译方法,其特征在于,该方法包括如下步骤:对藏文、汉文分别进行音节化,得到藏文音节和汉文音节,利用藏文音节和汉文音节训练音节成分袋BOC模型,分别得到藏文音节嵌入表示和汉文音节嵌入表示;根据音节嵌入表示、利用最大熵音译模型实现从藏文人名到汉文人名的音译;音节嵌入表示的获取方法如下:将藏文和汉文语料进行音节化后的音节和成分进行嵌入初始化,每个嵌入为400~600的维度,每个维度值取自区间[‑1,1];创建CEBOC网络,用于表示基于成分‑整体的BOC网络,通过音节预测每个成分的概率;利用随机梯度上升算法学习参数,更新音节的成分嵌入;当CEBOC网络遍历完语料,得到藏文和汉文音节的所有成分的最终嵌入;创建ECBOC网络,用于表示基于整体‑成分的BOC网络,通过成分预测音节的概率;利用随机梯度上升算法学习参数,更新音节的嵌入;当ECBOC网络遍历完语料,得到藏文和汉文音节的所有音节的最终嵌入。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810059615.X/,转载请声明来源钻瓜专利网。