[发明专利]基于知识图谱的神经机器翻译方法、装置、设备及介质在审
申请号: | 202111199951.2 | 申请日: | 2021-10-14 |
公开(公告)号: | CN114118104A | 公开(公告)日: | 2022-03-01 |
发明(设计)人: | 赵阳;张家俊;周玉;宗成庆 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/42;G06F16/36;G06N5/02;G06N5/04 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 谢志超 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 知识 图谱 神经 机器翻译 方法 装置 设备 介质 | ||
本发明提供一种基于知识图谱的神经机器翻译方法、装置、设备及介质,该方法包括:获取原始双语平行语句对,根据原始双语平行语句对提取单词和短语翻译对,得到对应的种子实体翻译对;获取源语言知识图谱和目标语言知识图谱,根据种子实体翻译对、源语言知识图谱和目标语言知识图谱,构建对应的向量空间;获取到待翻译实体集合时,根据向量空间对待翻译实体集合进行推断,得到对应的待翻译实体翻译对;计算种子实体翻译对和待翻译实体翻译对的距离,根据距离得到包含待翻译实体翻译对的伪双语平行句对。本发明通过将知识图谱融合到神经机器翻译中,利用知识图谱中丰富的实体知识提升了神经机器翻译的实体翻译准确率。
技术领域
本发明涉及自然语言处理和机器翻译技术领域,尤其涉及一种基于知识图谱的神经机器翻译方法、装置、设备及介质。
背景技术
机器翻译就是通过计算机实现不同语言之间的转换,即通过计算机实现从源语言到目标语言的转换。神经机器翻译就是在机器翻译的基础上,通过神经网络实现从源语言到目标语言的自动转换。目前的神经机器翻译虽然表现卓著,但是依旧存在不足,特别是对实体翻译的过程。目前的神经机器翻译对实体翻译的质量较差,从而使得神经机器翻译的实体翻译准确率低。
发明内容
本发明提供一种基于知识图谱的神经机器翻译方法、装置、设备及介质,旨在提升神经机器翻译的实体翻译准确率。
本发明提供一种基于知识图谱的神经机器翻译方法,包括:
获取原始双语平行语句对,根据所述原始双语平行语句对提取单词和短语翻译对,得到对应的种子实体翻译对,其中,所述原始双语平行语句对包括原始源语言和原始目标语言;
获取所述原始源语言对应的源语言知识图谱和所述原始目标语言对应的目标语言知识图谱,根据所述种子实体翻译对、所述源语言知识图谱和所述目标语言知识图谱,构建对应的向量空间;
获取到待翻译实体集合时,根据所述向量空间对所述待翻译实体集合进行推断,得到对应的待翻译实体翻译对;
计算所述种子实体翻译对和所述待翻译实体翻译对的距离,根据所述距离得到包含所述待翻译实体翻译对的伪双语平行句对。
根据本发明提供的一种基于知识图谱的神经机器翻译方法,所述根据所述距离得到包含所述待翻译实体翻译对的伪双语平行句对的步骤包括:
确定所述距离是否小于第一预设距离阈值;
若所述距离小于所述第一预设距离阈值,则将所述种子实体翻译对的上下文迁移至所述待翻译实体翻译对的上下文,得到所述包含所述待翻译实体翻译对的伪双语平行句对。
根据本发明提供的一种基于知识图谱的神经机器翻译方法,所述根据所述种子实体翻译对、所述源语言知识图谱和所述目标语言知识图谱,构建对应的向量空间的步骤包括:
通过预设知识表示方法将所述源语言知识图谱和所述目标语言知识图谱,分别转化为对应的源语言知识向量和目标语言知识向量;
基于所述源语言知识向量和所述目标语言知识向量,构建对应的向量转化矩阵;
根据所述种子实体翻译对和所述向量转化矩阵,将所述源语言知识向量和所述目标语言知识向量进行映射,构建所述向量空间。
根据本发明提供的一种基于知识图谱的神经机器翻译方法,所述待翻译实体集合包括源语言实体集合和目标语言实体集合,
所述根据所述向量空间对所述待翻译实体集合进行推断,得到对应的待翻译实体翻译对的步骤包括:
通过所述向量转化矩阵将所述源语言实体集合或/和所述目标语言实体集合映射到所述向量空间中,得到对应的各个映射实体对;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111199951.2/2.html,转载请声明来源钻瓜专利网。