[发明专利]基于音节嵌入的藏汉人名音译方法有效

申请号：	201810059615.X	申请日：	2018-01-22
公开（公告）号：	CN108197122B	公开（公告）日：	2018-11-23
发明（设计）人：	夏建华;张进兵;韩立新	申请（专利权）人：	河海大学
主分类号：	G06F17/28	分类号：	G06F17/28
代理公司：	南京纵横知识产权代理有限公司 32224	代理人：	董建林
地址：	211100 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开一种基于音节嵌入的藏汉人名音译方法，利用藏语音节和汉语音节来训练音节成分袋BOC模型，分别得到藏语音节嵌入和汉语音节嵌入表示；根据音节的嵌入表示来实现从藏语人名到汉语人名的音译序列生成。本发明摒弃了传统音译过程中借助语音作为平行语料之间的相似度量，利用BOC模型得到的音节嵌入能够克服平行语料库规模小而导致某些字词缺失对音译系统的影响。本发明克服了传统方法对于缺失字词的音译的局限性，提高了音译结果中字词的多样性和扩展了可候选项，得到更好的音译结果。
搜索关键词：	音节嵌入嵌入的汉语平行语料库相似度量序列生成音译系统成分袋候选项语料平行语音多样性
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.基于音节嵌入的藏汉人名音译方法，其特征在于，该方法包括如下步骤：对藏文、汉文分别进行音节化，得到藏文音节和汉文音节，利用藏文音节和汉文音节训练音节成分袋BOC模型，分别得到藏文音节嵌入表示和汉文音节嵌入表示；根据音节嵌入表示、利用最大熵音译模型实现从藏文人名到汉文人名的音译；音节嵌入表示的获取方法如下：将藏文和汉文语料进行音节化后的音节和成分进行嵌入初始化，每个嵌入为400～600的维度，每个维度值取自区间[‑1，1]；创建CEBOC网络，用于表示基于成分‑整体的BOC网络，通过音节预测每个成分的概率；利用随机梯度上升算法学习参数，更新音节的成分嵌入；当CEBOC网络遍历完语料，得到藏文和汉文音节的所有成分的最终嵌入；创建ECBOC网络，用于表示基于整体‑成分的BOC网络，通过成分预测音节的概率；利用随机梯度上升算法学习参数，更新音节的嵌入；当ECBOC网络遍历完语料，得到藏文和汉文音节的所有音节的最终嵌入。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于河海大学，未经河海大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810059615.X/，转载请声明来源钻瓜专利网。

上一篇：机器学习语料的获取方法、系统、装置及可读存储介质
下一篇：一种基于智能手表的云翻译系统和方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于音节嵌入的藏汉人名音译方法有效

专利文献下载