[发明专利]一种数据处理方法、装置及设备在审
| 申请号: | 202111452418.2 | 申请日: | 2021-12-01 |
| 公开(公告)号: | CN114298153A | 公开(公告)日: | 2022-04-08 |
| 发明(设计)人: | 傅剑文 | 申请(专利权)人: | 上海高德威智能交通系统有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00 |
| 代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 王剑 |
| 地址: | 201821 上海市*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 数据处理 方法 装置 设备 | ||
本申请提供一种数据处理方法、装置及设备,包括:将各有标签数据输入给初始模型,得到各有标签数据对应的第一特征向量,基于各有标签数据对应的第一特征向量确定特征分布;将无标签数据输入给初始模型,得到该无标签数据对应的第二特征向量;确定该无标签数据对应的不确定度;基于该无标签数据对应的不确定度和特征分布确定该第二特征向量与各有标签数据对应的第一特征向量之间的距离值;基于该第二特征向量与各第一特征向量之间的距离值确定该无标签数据对应的目标距离值;基于目标距离值从无标签数据集中选取待标定数据,对待标定数据进行数据标定。通过本申请的技术方案,减少大量数据的标定操作,节约人力资源。
技术领域
本申请涉及人工智能技术领域,尤其涉及一种数据处理方法、装置及设备。
背景技术
机器学习是实现人工智能的一种途径,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习用于研究计算机如何模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习更加注重算法设计,使计算机能够自动地从数据中学习规律,并利用规律对未知数据进行预测。机器学习已经有了十分广泛的应用,如深度学习、数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、语音识别和手写识别等。
为了采用机器学习实现人工智能处理,可以构建训练数据集,该训练数据集包括大量有标签数据(如图像数据,即具有标定框和标定类别的图像),基于训练数据集训练出机器学习模型,如具有目标检测功能的机器学习模型,可以采用机器学习模型对待检测数据进行目标检测,比如说,检测待检测数据中的目标框,并识别出目标类别,如车辆类别、动物类别、电子产品类别等。
为了提高机器学习模型的性能,需要获取大量有标签数据,有标签数据越多,则训练出的机器学习模型的性能越好。但是,为了得到大量有标签数据,需要对大量数据进行标注操作,需要耗费大量人力资源,并消耗大量时间。
发明内容
本申请提供一种数据处理方法,所述方法包括:
将有标签数据集中的各有标签数据输入给初始模型,得到各有标签数据对应的第一特征向量,基于各有标签数据对应的第一特征向量确定特征分布;
针对无标签数据集中的每个无标签数据,将该无标签数据输入给初始模型,得到该无标签数据对应的第二特征向量;确定该无标签数据对应的不确定度;
基于该无标签数据对应的不确定度和所述特征分布确定该第二特征向量与各有标签数据对应的第一特征向量之间的距离值;基于该第二特征向量与各第一特征向量之间的距离值确定该无标签数据对应的目标距离值;
基于无标签数据集中的每个无标签数据对应的目标距离值,从所述无标签数据集中选取待标定数据,对所述待标定数据进行数据标定。
本申请提供一种数据处理装置,所述装置包括:
获取模块,用于将有标签数据集中的各有标签数据输入给初始模型,得到各有标签数据对应的第一特征向量,基于各有标签数据对应的第一特征向量确定特征分布;针对无标签数据集中的每个无标签数据,将该无标签数据输入给初始模型,得到该无标签数据对应的第二特征向量;确定该无标签数据对应的不确定度;
确定模块,用于基于该无标签数据对应的不确定度和所述特征分布确定该第二特征向量与各有标签数据对应的第一特征向量之间的距离值;基于该第二特征向量与各第一特征向量之间的距离值确定该无标签数据对应的目标距离值;
标定模块,用于基于无标签数据集中的每个无标签数据对应的目标距离值,从所述无标签数据集中选取待标定数据,对所述待标定数据进行数据标定。
本申请提供一种数据处理设备,包括:处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令;所述处理器用于执行机器可执行指令,以实现本申请上述示例公开的数据处理方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海高德威智能交通系统有限公司,未经上海高德威智能交通系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111452418.2/2.html,转载请声明来源钻瓜专利网。





