[发明专利]一种数据源权重评估方法及其相关装置有效

专利信息
申请号: 202310705768.8 申请日: 2023-06-15
公开(公告)号: CN116450634B 公开(公告)日: 2023-09-29
发明(设计)人: 孙太凤;郭行飞 申请(专利权)人: 中新宽维传媒科技有限公司
主分类号: G06F16/215 分类号: G06F16/215;G06F18/22;G06F18/23;G06N7/02
代理公司: 北京清大紫荆知识产权代理有限公司 11718 代理人: 赵然
地址: 201306 上海市浦东新区中国(上*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 数据源 权重 评估 方法 及其 相关 装置
【说明书】:

本申请公开了一种数据源权重评估方法及其相关装置,涉及数据清洗技术领域。包括:获取第一数据集;基于所述第一数据集,获取第二数据集;基于所述第一数据集和所述第二数据集,获取至少一个评价因素;基于各个评价因素和各个评价因素的评价权重,获取各个数据源的权重。本申请通过借助各个数据源之间的相关性以及各个数据源的外部信息,来获取各个数据源的权重值。使用该值作为真值发现算法的初始化权重值,既可以克服现有方法中先验知识不足的缺陷,也可以避免真值发现算法因初始化权重不准确而导致的准确率低的问题。

技术领域

本申请涉及数据清洗技术领域,具体为一种数据源权重评估方法及其相关装置。

背景技术

真值发现是一种用于从冲突数据中提取有效信息的先进技术,是数据融合中的重要组成部分,能有效提高数据质量,极大降低虚假信息带来的影响。在真值发现任务中,最主要的任务就是对数据源的可信度(在真值发现算法中,数据源的可信度即是以其对应的权重体现的)进行准确估计。

目前,常用的数据源的可信度评估方法有一致性方法和先验方法。其中,一致性方法,即对每个数据源分配同样的权重,此种方法在数据源完全遵从独立性假设时是可行的。但是在实际应用中,数据源之间可能存在信息复制拷贝,尤其是当部分数据源提供的数据是从不可靠数据源复制而来的时候,数据源的独立性假设将会失效。而目前所公开的先验方法,多种多样,例如:有学者通过数据源之间的相似性来获取数据源的权重,但这种方法无法处理独立的数据源;有些学者则利用已知的数据源的外部信息来获取权重,但这些数据源的权重并不总是已知的;还有些学者尝试通过检测数据源之间的复制拷贝关系来调整权重,但当提供相似观测值的数据源是从可靠的数据源的复制的时,该方法则会失效。

发明内容

本申请的目的在于提供一种数据源权重评估方法及其相关装置,可以解决真值发现算法中由于数据源权重不准确而导致的算法准确率低的问题。

为实现上述目的,本申请提供如下技术方案:

第一方面,本申请实施例提供一种数据源权重评估方法,所述方法包括:获取第一数据集;所述第一数据集包括至少一个数据源,各个数据源用于描述至少一个目标对象;基于所述第一数据集,获取第二数据集,所述第二数据集基于所述第一数据集中所有的目标对象获取;基于所述第一数据集和所述第二数据集,获取至少一个评价因素;基于各个评价因素和各个评价因素的评价权重,获取各个数据源的权重;所述各个评价因素的评价权重预先设定。

在本申请的一个实施方式中,所述至少一个评价因素,至少包括:数据源覆盖度、数据源重要性、数据源权威性、数据源偏离度和数据源独立性中的任意一个或者多个的组合。

在本申请的一个实施方式中,所述数据源覆盖度,至少包括:各个数据源所描述的目标对象在所述第二数据集中所占据的比例;所述数据源重要性,至少包括:基于各个数据源的来源网站的PR值获取;所述数据源权威性,至少包括:各个数据源的来源评分。

在本申请的一个实施方式中,所述数据源偏离度的获取方法包括:基于所述第一数据集,获取至少一个第一聚类簇;基于所述第一聚类簇,获取所述第一聚类簇中各个数据源之间的距离;基于各个数据源之间的距离,获取所述数据源偏离度。

在本申请的一个实施方式中,所述数据源独立性的获取方法包括:基于所述第一聚类簇,获取至少一个第二聚类簇;基于所述第二聚类簇,获取所述数据源独立性;所述数据源独立性包括:

其中,为数据源,为第一聚类簇形成的第二聚类簇数,为第二聚类簇中的数据源总数。

在本申请的一个实施方式中,基于各个评价因素和各个评价因素的评价权重,获取各个数据源的权重,包括:基于各个评价因素和各个评价因素的评价权重,构造模糊评价矩阵;基于所述模糊评价矩阵,获取模糊综合评价向量;基于所述模糊综合评价向量,采用加权平均算子,获取各个数据源的权重。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中新宽维传媒科技有限公司,未经中新宽维传媒科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310705768.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top