[发明专利]基于知识图谱的对齐方法、装置及介质有效
申请号: | 201811351586.0 | 申请日: | 2018-11-14 |
公开(公告)号: | CN109614497B | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | 刘学梁;刘旭;王琛;季思伟 | 申请(专利权)人: | 金色熊猫有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/332 |
代理公司: | 隆天知识产权代理有限公司 72003 | 代理人: | 郑特强;章侃铱 |
地址: | 中国香港铜锣湾希慎*** | 国省代码: | 香港;81 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 知识 图谱 对齐 方法 装置 介质 | ||
本公开提供了一种基于知识图谱的对齐方法,包括:获取至少两个文本,所述文本包括多个核心语义成份;根据知识图谱,确定所述至少两个文本之间的短语的第一对齐关系;根据所述至少两个文本之间的核心语义成份的第一对齐关系和预设的语法关系,确定所述至少两个文本之间的核心语义成份的第二对齐关系;存储所述至少两个文本之间的核心语义成份的第一对齐关系和第二对齐关系。本公开还提供了一种基于知识图谱的对齐装置及介质。
技术领域
本公开涉及互联网技术的领域,尤其涉及一种基于知识图谱的对齐方法、装置及介质。
背景技术
随着互联网技术的快速发展,机器翻译越来越受人们青睐。在利用机器翻译的过程中,对齐技术是传统的机器翻译系统中最重要的一个环节,是指给定双语语料,在所有可能的对齐关系中找出概率最大的。对齐技术决定了机器翻译系统的性能。对齐技术也常用在文本的相似度计算上。
目前,现有技术对两个文本进行对齐时,一般可以基于文本的长度来实现两个文本的对齐,也可以基于词典来实现两个文本的对齐,还可以基于模型对两个文本的内容进行对齐。但是,发明人在实现本发明构思的过程中,发明人发现现有技术至少存在以下问题:基于文本长度的对齐方式对两个文本进行对齐时,如果两个文本之间有一对短语对齐错误,那么就容易导致整个文本对齐都错误,即采用这种对齐方式容易造成错误的蔓延;基于词典的对齐方式对两个文本进行对齐时,如果文本中含有专有名词(例如,海底捞),但是词典中并没有包含这种专有名词,从而导致对齐失败或准确率降低;基于模型的对齐方式对两个文本进行对齐时,由于模型统计的数据量比较大,从而导致模型中的词不够书面化,准确性低,因此在对文本对齐时可能出现张冠李戴的情况,进而影响了对齐结果。
发明内容
有鉴于此,本公开提供一种基于知识图谱的对齐方法、装置及介质,进而至少部分地解决了由于相关技术的限制和缺陷而导致的一个或者多个问题。
本公开一方面提供了一种基于知识图谱的对齐方法,包括:获取至少两个文本,所述文本包括核心语义成份;根据知识图谱,确定所述至少两个文本之间的核心语义成份的第一对齐关系;根据所述至少两个文本之间的核心语义成份的第一对齐关系和预设的语法关系,确定所述至少两个文本之间的核心语义成份的第二对齐关系;存储所述至少两个文本之间的核心语义成份的第一对齐关系和第二对齐关系。
根据本公开的实施例,所述根据知识图谱,确定所述至少两个文本之间的核心语义成份的第一对齐关系包括:根据知识图谱,将所述至少两个文本之间具有同义关系、反义关系、同位关系、上下位关系的核心语义成份进行对齐,得到所述至少两个文本之间的核心成份的第一对齐关系。
根据本公开的实施例,根据所述至少两个文本之间的核心语义成份的第一对齐关系和预设的语法关系,确定所述至少两个文本之间的核心语义成份的第二对齐关系包括:根据所述至少两个文本之间的核心语义成份的第一对齐关系和预设的语法关系,将所述至少两个文本之间具有主谓关系、动宾关系、形名关系的核心语义成份进行对齐,得到所述至少两个文本之间的核心语义成份的第二对齐关系。
根据本公开的实施例,所述文本还包括非核心语义成份,所述方法还包括:基于IBM model的统计翻译模型对所述至少两个文本之间的非核心语义成份进行对齐,得到所述至少两个文本之间的非核心语义成份的第三对应关系,所述非核心语义成份包括不具有所述第一对齐关系和不具有所述第二对齐关系的短语。
本公开的另一个方面提供了一种基于知识图谱的对齐装置,包括:获取模块,用于获取至少两个文本,所述文本包括核心语义成份;第一确定模块,用于根据知识图谱,确定所述至少两个文本之间的短语的第一对齐关系;第二确定模块,用于根据所述至少两个文本之间的核心语义成份的第一对齐关系和预设的语法关系,确定所述至少两个文本之间的核心语义成份的第二对齐关系;
存储模块,用于存储所述至少两个文本之间的核心语义成份的第一对齐关系和第二对齐关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于金色熊猫有限公司,未经金色熊猫有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811351586.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于知识图谱的低保鉴别方法
- 下一篇:知识库构建方法及装置