[发明专利]一种数据质量评估方法及系统有效
申请号: | 202010472680.2 | 申请日: | 2020-05-28 |
公开(公告)号: | CN111612783B | 公开(公告)日: | 2023-10-24 |
发明(设计)人: | 李安然;张兰;李向阳;谢筠庭 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06T7/00 | 分类号: | G06T7/00;G06F40/253;G06F40/232;G06F18/213;G06F18/22;G06N3/0464;G06N3/045 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王娇娇 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 质量 评估 方法 系统 | ||
本发明公开了一种数据质量评估方法及系统,方法包括:对数据集进行评估与任务无关的数据内部特征,得到满足最低内在质量要求的数据集;对满足最低内在质量要求的数据集和样本数据集中的每个数据进行特征提取,得到每个数据的特征向量;对满足最低内在质量要求的数据集和样本数据集中的每个数据的特征向量进行上下文质量评估,得到质量评估结果;对质量评估结果进行质量排序。本发明在数据质量评估时,能够综合考虑与任务无关的内在质量,与任务相关的上下文质量,以及对大规模数据质量评估的需求,有效提升了数据质量评估的全面性,准确性和效率。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据质量评估方法及系统。
背景技术
现如今,随着移动网络,传感器网络和群智感知技术的飞速发展,多种多样的数据正在大量产生。同时,大量基于数据的信息服务亦显著兴起,数据质量在其中起着至关重要的作用。1)高质量数据可提供足够和准确的信息来完成特定任务,例如训练高质量的机器学习模型;帮助智慧城市系统制定明智的决策。2)大量服务将数据本身作为产品按需提供给用户,例如,群智感知服务。对于这些服务,数据的质量决定了用户的满意度。3)高数据质量有助于优化系统资源利用率。有限的资源(例如带宽,存储和计算资源)应优先分配给高质量数据,以保证系统性能和服务的质量。以群智感知应用为例,大量参与者上传手机中的图像,有效的数据质量评估,尤其是大型图像集的有效质量评估,可以显著促进上传图像的质量,以此来通过避免传输低质量图像造成的带宽损耗。
数据质量评估已引起研究人员的关注,然而,当面临特定任务和大规模数据量时,现有的评估方法存在以下缺陷。首先,现有的工作大多关注数据的内在质量,而忽略了重要的上下文质量。利用相同的数据,一项任务可以很好地执行,而另一项任务可能执行得很差。例如,用于训练人脸识别的高质量图像数据集可能是物体检测任务的劣质数据集。其次,现有工作评估数据质量时大多针对单个数据单元(如一张图片,一个文本),缺乏对数据集合整体质量的评估方法。若简单通过单个数据单元的质量统计得到数据集整体质量,如统计所有数据单元质量的最小值或平均值,则忽略了数据单元之间的关系对数据集质量造成的影响。最后,尽管已经提出了各种维度的数据质量,但是如何融合这些维度以获得一个综合全面的质量结果仍然是一个挑战。
因此,如何更加全面、准确的对数据的质量进行评估,是一项亟待解决的问题。
发明内容
有鉴于此,本发明提供了一种数据质量评估方法,在数据质量评估时,能够综合考虑与任务无关的内在质量,与任务相关的上下文质量,以及对大规模数据质量评估的需求,有效提升了数据质量评估的全面性,准确性和效率。
本发明提供了一种数据质量评估方法,包括:
对数据集进行评估与任务无关的数据内部特征,得到满足最低内在质量要求的数据集;
对所述满足最低内在质量要求的数据集和样本数据集中的每个数据进行特征提取,得到每个数据的特征向量;
对所述满足最低内在质量要求的数据集和样本数据集中的每个数据的特征向量进行上下文质量评估,得到质量评估结果;
对所述质量评估结果进行质量排序。
优选地,所述对数据集进行评估与任务无关的数据内部特征,得到满足最低内在质量要求的数据集,包括:
通过模式匹配方法对数据集的正确性、可靠性和无错误的程度进行评估,得到准确性量化值;
对数据集的数据采集和存储精度进行评估,得到精确性量化值;
对数据集的无偏程度进行评估,得到客观性量化值;
对数据集的数据源被信任程度进行评估,得到可信赖性量化值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010472680.2/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置