[发明专利]一种数据处理方法、装置、设备及存储介质在审
申请号: | 202210529898.6 | 申请日: | 2022-05-16 |
公开(公告)号: | CN115019119A | 公开(公告)日: | 2022-09-06 |
发明(设计)人: | 张俊丽;王奇刚;李远辉;舒红乔 | 申请(专利权)人: | 联想(北京)有限公司 |
主分类号: | G06V10/774 | 分类号: | G06V10/774;G06V10/764;G06F16/35;G06F16/906;G06N3/08 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 马丽;王黎延 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 设备 存储 介质 | ||
本申请公开了一种数据处理方法、装置、设备及存储介质,包括:在散点图上确定第一散点;所述散点图包括第一类型的散点和第二类型的散点,一个所述第一类型的散点表征一个原始标签数据;一个第二类型的散点表征一个无标签数据;所述第一散点为任一个所述第一类型的散点;所述第一散点表征第一数据;基于所述散点图,确定所述第一散点的邻域半径范围;在所述邻域半径范围内,确定所述第一散点的扩展区域;将所述扩展区域内的所述第二类型的散点的标签配置为所述第一散点的第一标签。对于本申请的方案,消耗的时间和存储空间小;且标注的准确度高。
技术领域
本申请涉及数据处理技术领域,涉及但不限于数据处理方法、装置、设备及存储介质。
背景技术
随着数据处理技术的不断发展,自动化标注技术也得到广泛发展。
相关技术中,对于具有少量可信任标签的图像分类数据集,可以通过标签传播方法将已有标签传播到其它未标注数据,以实现对数据集的自动化标注。相关技术中的标签传播算法,需要基于所有数据构建关系图,并计算各数据间的概率转移矩阵,并基于概率转移矩阵对所有数据集进行标注。
在相关技术中,一方面,由于计算概率转移矩阵的时间和存储空间消耗较大,所以耗时长,需要的存储空间也大;另一方面,基于概率转移矩阵的标签传播算法,对于每一个数据都会得到一个标签,所以无法保证标注的准确率。
如何保证传播范围的准确,如何实现标签传播的高效、简捷、易用是待解决的问题。
发明内容
本申请提供一种数据处理方法及装置、设备、存储介质。
本申请的技术方案是这样实现的:
本申请提供了一种数据处理方法,所述方法包括:在散点图上确定第一散点;所述散点图包括第一类型的散点和第二类型的散点,一个所述第一类型的散点表征一个原始标签数据;一个第二类型的散点表征一个无标签数据;所述第一散点为任一个所述第一类型的散点;所述第一散点表征第一数据;
基于所述散点图,确定所述第一散点的邻域半径范围;所述邻域半径范围用于表征所述第一散点可传播的邻域半径的取值范围;
在所述邻域半径范围内,确定所述第一散点的扩展区域;
将所述扩展区域内的所述第二类型的散点的标签配置为所述第一散点的第一标签;所述第一标签用于表征所述第一数据所属的数据类型。
本申请提供了一种数据处理装置,所述装置包括:
第一确定单元,用于在散点图上确定第一散点;所述散点图包括第一类型的散点和第二类型的散点,一个所述第一类型的散点表征一个原始标签数据;一个第二类型的散点表征一个无标签数据;所述第一散点为任一个所述第一类型的散点;所述第一散点表征第一数据;
第二确定单元,用于基于所述散点图,确定所述第一散点的邻域半径范围;所述邻域半径范围用于表征所述第一散点可传播的邻域半径的取值范围;
第三确定单元,用于在所述邻域半径范围内,确定所述第一散点的扩展区域;
处理单元,用于将所述扩展区域内的所述第二类型的散点的标签配置为所述第一散点的第一标签;所述第一标签用于表征所述第一数据所属的数据类型。
本申请还提供了一种电子设备,包括:存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述数据处理方法。
本申请还提供了一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述数据处理方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于联想(北京)有限公司,未经联想(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210529898.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于张量多属性特征迁移的分类方法
- 下一篇:一种高安全性的电梯用开关电源