[发明专利]基于规则信息的高质量噪音检测方法与装置在审
申请号: | 202210135548.1 | 申请日: | 2022-02-14 |
公开(公告)号: | CN114860945A | 公开(公告)日: | 2022-08-05 |
发明(设计)人: | 吴信东;洪炎;卜晨阳 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06N5/02;G06F16/33;G06F16/35;G06N20/00 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 周春枚 |
地址: | 230009 *** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 规则 信息 质量 噪音 检测 方法 装置 | ||
本发明公开了一种基于规则信息的高质量噪音检测方法与装置。其中,该方法包括:根据文本数据构建知识图谱,其中,知识图谱至少包括高质量噪音,高质量噪音为实体类型相同但错误的三元组;对知识图谱抽取的规则进行实例化处理,得到知识图谱的目标三元组;确定目标三元组的目标置信度;根据目标置信度,确定知识图谱中的高质量噪音。本发明解决了建模过程中的知识图谱存在高质量噪音且无法有效检测出高质量噪音的技术问题。
技术领域
本发明涉及知识图谱领域,具体而言,涉及一种基于规则信息的高质量噪音检测方法与装置。
背景技术
知识表示学习的目标是利用稠密低维的向量来表示知识图谱中的实体和关系。目前翻译模型以及双线性模型是知识表示学习具有代表性的模型,能够很好的获取实体与关系之间的语义联系。但由于大多数知识表示学习方法都假设现有知识图谱中的知识是完全正确的,忽略了现实生活中潜在的大量噪音,这将导致大部分传统表示学习模型在理解噪音知识图谱语义联系的过程中带来潜在误差,进而导致实体和关系的向量表示出现错误;虽然目前已经有一部分工作考虑了知识图谱中存在的噪音,这些工作使用实体的描述信息、全局路径三元组置信度等信息进行噪音检测,但已有的噪音检测方法都未考虑到规则所具有丰富语义信息的因素可以用于噪音检测。
现有的大多数基于翻译规则的模型都未考虑知识图谱自动构建过程中存在的潜在高质量噪音,因此大部分模型不具备高质量噪音检测的能力。在构建表示学习模型时,存在如下两个有待解决的问题:
(1)高质量噪音问题
在构建现实世界的知识图谱时,能够出现实体类型错误的低质量噪音,同时也会出现大多数例如相似实体之间的误解噪音,可以把这种类型的数据称为高质量噪音,高质量噪音在知识图谱自动构建的过程中更容易产生且不易检测。图1是根据现有技术的不同类型噪音的示意图,如图1所示,给定一个正确的三元组(中国,首都,北京),同时给定两个不同类型的噪音三元组数据。其中一个三元组为(中国,首都,计算机),由于计算机不是地点类型的实体,因此该三元组为实体类型错误的低质量噪音。另一个三元组为(中国,首都,南京),南京与北京同为地点类型的实体,但在此三元组中是错误的,这种实体类型相同但仍为错误的三元组即为高质量的噪音。
(2)规则蕴含语义信息
传统的网络本体语言(Web Ontology Language,OWL)方法只能按层通过实体所属类别进行噪音检测,不能检测出实体类型所属相同的高质量噪音。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种基于规则信息的高质量噪音检测方法与装置,以至少解决建模过程中的知识图谱存在高质量噪音且无法有效检测出高质量噪音的技术问题。
根据本发明实施例的一个方面,提供了一种基于规则信息的高质量噪音检测方法,包括:根据文本数据构建知识图谱,其中,所述知识图谱至少包括高质量噪音,所述高质量噪音为实体类型相同但错误的三元组;对所述知识图谱抽取的规则进行实例化处理,得到所述知识图谱的目标三元组;确定所述目标三元组的目标置信度;根据所述目标置信度,确定所述知识图谱中的所述高质量噪音。
可选地,对所述知识图谱抽取的规则进行实例化处理,得到所述知识图谱的目标三元组,包括:获取所述知识图谱的三元组以及实体集合;根据所述三元组进行规则抽取,得到所述知识图谱的所述规则;根据所述实体集合对所述规则进行实例化处理,得到所述目标三元组。
可选地,确定所述目标三元组的目标置信度,包括:获取所述目标三元组的全局路径置信度与规则置信度;根据所述全局路径置信度与所述规则置信度,确定所述目标置信度。
可选地,获取所述目标三元组的规则置信度,包括:获取所述目标三元组中规则体与规则头之间所关联的权值;分别计算出所述目标三元组中规则体的分值、规则头的分值;根据所述权值、所述规则体的分值以及所述规则头的分值,得到所述规则置信度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210135548.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:关于属性调整的信息处理方法及服务器
- 下一篇:采矿用降尘设备
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置