[发明专利]一种知识精炼的方法以及装置有效
申请号: | 201710197975.1 | 申请日: | 2017-03-29 |
公开(公告)号: | CN106951963B | 公开(公告)日: | 2020-05-22 |
发明(设计)人: | 赵朋朋;李春华;许佳捷;崔志明 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06N5/02 | 分类号: | G06N5/02 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 罗满 |
地址: | 215123 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 知识 精炼 方法 以及 装置 | ||
本发明公开了一种知识精炼的方法以及装置,通过获取自动抽取的知识库内的候选知识子集;根据众包任务选择算法,从候选知识子集中选取出第一预设数量的最优知识子集,其中,众包任务选择算法为以语义约束规则为基础的算法,第一预设数量小于或等于预设众包任务数量;基于最优知识子集,发布众包任务,得到任务反馈结果;根据任务反馈结果,对知识库进行去噪操作。即基于众包平台,对自动抽取的知识库内的知识进行精炼,也即利用人工标注去除自动抽取的知识库的噪声,使得知识库内的知识质量较高。且选取出预设数量的候选知识子集实施众包任务,使得在有限的资源下最大化知识质量的提升。可见,本申请有利于提高自动抽取的知识库内的知识质量。
技术领域
本发明涉及机器学习领域,特别是涉及一种知识精炼的方法以及装置。
背景技术
近年来,机器学习技术以及自然语言处理技术已经应用于许多信息抽取系统上。信息抽取系统可以从海量的Web数据中自动抽取知识,构建知识库。
自动抽取形成的知识库内包含了大量的实体以及实体关系,但是由于数据源以及抽取系统所使用的抽取算法的局限性,知识库内往往有大量的噪声以及不可靠的事实。为了提高知识库的知识质量,即去除知识库内的噪声,可以使用知识算法来减少噪声。
然而,由于知识库的规模较大,信息抽取系统一般是使用简单的启发式规则对知识的不确定性以及矛盾性进行推理判断,以减少知识库内的噪声。且知识库内存在有知识算法难以判断其正确性的事实,更进一步地,知识算法的处理能力以及精度都十分有限,从而导致知识库内的噪声较多,知识库的可信度和可依赖性较低,知识库的知识质量较低。综上所述,如何提高自动抽取的知识库内的知识质量是本领域亟待解决的问题。
发明内容
本发明的目的是提供一种知识精炼的方法以及装置,目的在于解决现有技术中自动抽取的知识库内的知识质量较低的问题。
为解决上述技术问题,本发明提供一种知识精炼的方法,该方法包括:
获取自动抽取的知识库内的候选知识子集;
根据众包任务选择算法,从所述候选知识子集中选取出第一预设数量的最优知识子集,其中,所述众包任务选择算法为以语义约束规则为基础的算法,所述第一预设数量小于或等于预设众包任务数量;
基于所述最优知识子集,发布众包任务,得到任务反馈结果;
根据所述任务反馈结果,对所述知识库进行去噪操作。
可选地,所述根据众包任务选择算法,从所述候选知识子集中选取出第一预设数量的最优知识子集包括:
根据预设阈值以及所使用的知识抽取算法的置信度,计算得出表征所述候选知识子集的不确定性高低的第一数值;
根据所述语义约束规则内的矛盾关系语义约束规则,计算得出表征所述候选知识子集的矛盾性高低的第二数值;
基于预设评估函数,对所述第一数值以及所述第二数值进行计算,得出每个所述候选知识子集的评估分值;
根据所述评估分值的高低,从所述候选知识子集中选取出所述第一预设数量的知识子集,将所述知识子集作为所述最优知识子集;
其中,所述不确定性为度量所述抽取算法确定所述候选知识子集为正确知识子集的难易程度的性质。
可选地,在所述根据所述评估分值的高低,从所述候选知识子集中选取出所述第一预设数量的知识子集之后还包括:
根据所述语义约束规则以及所述知识子集,生成第一闭合语义约束规则;
将每一个所述知识子集作为一个顶点,并根据所述第一闭合语义约束规则连接各个所述顶点,得出第一有向图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710197975.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种浸入式开浇用钢包长水口
- 下一篇:一种粉末冶金的混料设备