[发明专利]一种数据质量评估方法及系统有效

专利信息
申请号: 202010472680.2 申请日: 2020-05-28
公开(公告)号: CN111612783B 公开(公告)日: 2023-10-24
发明(设计)人: 李安然;张兰;李向阳;谢筠庭 申请(专利权)人: 中国科学技术大学
主分类号: G06T7/00 分类号: G06T7/00;G06F40/253;G06F40/232;G06F18/213;G06F18/22;G06N3/0464;G06N3/045
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 王娇娇
地址: 230026 安*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 数据 质量 评估 方法 系统
【说明书】:

发明公开了一种数据质量评估方法及系统,方法包括:对数据集进行评估与任务无关的数据内部特征,得到满足最低内在质量要求的数据集;对满足最低内在质量要求的数据集和样本数据集中的每个数据进行特征提取,得到每个数据的特征向量;对满足最低内在质量要求的数据集和样本数据集中的每个数据的特征向量进行上下文质量评估,得到质量评估结果;对质量评估结果进行质量排序。本发明在数据质量评估时,能够综合考虑与任务无关的内在质量,与任务相关的上下文质量,以及对大规模数据质量评估的需求,有效提升了数据质量评估的全面性,准确性和效率。

技术领域

本发明涉及数据处理技术领域,尤其涉及一种数据质量评估方法及系统。

背景技术

现如今,随着移动网络,传感器网络和群智感知技术的飞速发展,多种多样的数据正在大量产生。同时,大量基于数据的信息服务亦显著兴起,数据质量在其中起着至关重要的作用。1)高质量数据可提供足够和准确的信息来完成特定任务,例如训练高质量的机器学习模型;帮助智慧城市系统制定明智的决策。2)大量服务将数据本身作为产品按需提供给用户,例如,群智感知服务。对于这些服务,数据的质量决定了用户的满意度。3)高数据质量有助于优化系统资源利用率。有限的资源(例如带宽,存储和计算资源)应优先分配给高质量数据,以保证系统性能和服务的质量。以群智感知应用为例,大量参与者上传手机中的图像,有效的数据质量评估,尤其是大型图像集的有效质量评估,可以显著促进上传图像的质量,以此来通过避免传输低质量图像造成的带宽损耗。

数据质量评估已引起研究人员的关注,然而,当面临特定任务和大规模数据量时,现有的评估方法存在以下缺陷。首先,现有的工作大多关注数据的内在质量,而忽略了重要的上下文质量。利用相同的数据,一项任务可以很好地执行,而另一项任务可能执行得很差。例如,用于训练人脸识别的高质量图像数据集可能是物体检测任务的劣质数据集。其次,现有工作评估数据质量时大多针对单个数据单元(如一张图片,一个文本),缺乏对数据集合整体质量的评估方法。若简单通过单个数据单元的质量统计得到数据集整体质量,如统计所有数据单元质量的最小值或平均值,则忽略了数据单元之间的关系对数据集质量造成的影响。最后,尽管已经提出了各种维度的数据质量,但是如何融合这些维度以获得一个综合全面的质量结果仍然是一个挑战。

因此,如何更加全面、准确的对数据的质量进行评估,是一项亟待解决的问题。

发明内容

有鉴于此,本发明提供了一种数据质量评估方法,在数据质量评估时,能够综合考虑与任务无关的内在质量,与任务相关的上下文质量,以及对大规模数据质量评估的需求,有效提升了数据质量评估的全面性,准确性和效率。

本发明提供了一种数据质量评估方法,包括:

对数据集进行评估与任务无关的数据内部特征,得到满足最低内在质量要求的数据集;

对所述满足最低内在质量要求的数据集和样本数据集中的每个数据进行特征提取,得到每个数据的特征向量;

对所述满足最低内在质量要求的数据集和样本数据集中的每个数据的特征向量进行上下文质量评估,得到质量评估结果;

对所述质量评估结果进行质量排序。

优选地,所述对数据集进行评估与任务无关的数据内部特征,得到满足最低内在质量要求的数据集,包括:

通过模式匹配方法对数据集的正确性、可靠性和无错误的程度进行评估,得到准确性量化值;

对数据集的数据采集和存储精度进行评估,得到精确性量化值;

对数据集的无偏程度进行评估,得到客观性量化值;

对数据集的数据源被信任程度进行评估,得到可信赖性量化值;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010472680.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top