[发明专利]基于双语词嵌入技术的并行化词对齐方法有效
申请号: | 201710714527.4 | 申请日: | 2017-08-18 |
公开(公告)号: | CN107491444B | 公开(公告)日: | 2020-10-27 |
发明(设计)人: | 袁春风;黄宜华;黄堃 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/284 |
代理公司: | 苏州威世朋知识产权代理事务所(普通合伙) 32235 | 代理人: | 杨林洁 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于双语词嵌入技术的并行化词对齐方法,在Spark平台上利用MPS‑Neg双语词嵌入技术获得双语词向量表,由双语词向量表获得词对齐模型,进而进行分布式词对齐任务,利用词对齐结果和MPS‑Neg更新双语词向量表,重复以上词对齐和双语词向量表更新操作直至指定迭代次数。本发明解决了现有词对齐方法不能很好适应大规模语料词对齐任务的问题。 | ||
搜索关键词: | 基于 双语 嵌入 技术 并行 对齐 方法 | ||
【主权项】:
一种基于双语词嵌入技术的并行化词对齐方法,其特征是:包括以下步骤:(1)以Spark作为并行化计算平台,调用Spark MLlib中已经实现的Word2Vec词嵌入工具训练待对齐双语平行语料库,获得源语言的词表、词向量表和目标语言的词表、词向量表;(2)利用小规模词对齐样本数据集和MPS‑Neg双语词嵌入模型的I模式对步骤(1)中得到的源语言和目标语言的词向量表进行训练,得到初始化的双语词向量表;(3)利用双语词向量表完成基于双语词嵌入技术的并行化词对齐模型,进而对待对齐双语平行语料库进行分布式词对齐训练得到词对齐结果;(4)利用步骤(3)中的词对齐结果和MPS‑Neg双语词嵌入模型的U模式对双语词向量表进行更新;(5)重复步骤(3)和步骤(4)直至指定迭代次数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710714527.4/,转载请声明来源钻瓜专利网。