[发明专利]数据处理方法及装置、处理器、电子设备、存储介质在审
申请号: | 202010106959.9 | 申请日: | 2020-02-20 |
公开(公告)号: | CN111340084A | 公开(公告)日: | 2020-06-26 |
发明(设计)人: | 王飞;黄厚钧;李诚;钱晨;楼赞 | 申请(专利权)人: | 北京市商汤科技开发有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强;董文俊 |
地址: | 100142 北京市海淀区北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 处理器 电子设备 存储 介质 | ||
本申请公开了一种数据处理方法及装置、处理器、电子设备、存储介质。该方法包括:获取待聚类簇对和聚类网络,其中,所述聚类网络以簇对的纯度为监督信息训练得到,所述所述簇对的纯度用于表征簇对中的参考类别的纯度,所述参考类别为所述簇对中包含数据的数量最多的类别;使用所述聚类网络对所述待聚类簇对进行处理,得到第一合并分数,其中,所述第一合并分数用于表征所述待聚类簇对的纯度;基于所述第一合并分数,得到所述待聚类簇对的聚类结果。
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法及装置、处理器、电子设备、存储介质。
背景技术
随着深度学习的快速发展,机器学习可应用的领域越来越多。而在将深度学习的模型应用到不同的领域之前,需要对该模型进行训练,而训练需要大量已标注的数据作为训练数据。若通过人工标注的方式获得训练数据带来的人力成本高,且标注效率低。因此,如何通过机器完成对数据的标注就变得非常有意义。
通过对无标注数据进行聚类,可确定无标注数据的标注信息,从而实现对无标注数据的标注,得到训练数据。但传统聚类方法得到的聚类结果的准确率低,进而导致标注信息的准确率低。
发明内容
本申请提供一种数据处理方法及装置、处理器、电子设备、存储介质。
第一方面,提供了一种数据处理方法,所述方法包括:
获取待聚类簇对和聚类网络,其中,所述聚类网络以簇对的纯度为监督信息训练得到,所述簇对的纯度用于表征所述簇对中的参考类别的纯度,所述参考类别为所述簇对中包含数据的数量最多的类别;
使用所述聚类网络对所述待聚类簇对进行处理,得到第一合并分数,其中,所述第一合并分数用于表征所述待聚类簇对的纯度;
基于所述第一合并分数,得到所述待聚类簇对的聚类结果。
在该方面中,使用以纯度为监督信息训练获得的聚类网络对待聚类簇对进行处理,可获得待处理数据集中的簇对的纯度的信息,得到第一合并分数。基于第一合并分数得到聚类结果,可利用待聚类簇对的纯度的信息,从而提高聚类结果的准确率。
结合本申请任一实施方式,所述待聚类簇对包括第一簇和第二簇,所述第一簇中的数据的类别相同,所述第二簇中的数据的类别相同;
在所述基于所述第一合并分数,得到所述待聚类簇对的聚类结果之前,所述方法还包括:
将所述第一簇中的数据和所述第二簇中的数据组成待确认数据对,在所述待确认数据对中的两个数据之间的第一相似度大于或等于第一阈值的情况下,确定所述待确认数据对为支持合并数据对;
依据所述支持合并数据对的数量和所述待确认数据对的数量得到参考值;
所述基于所述第一合并分数,得到所述待聚类簇对的聚类结果,包括:
基于所述第一合并分数和所述参考值,得到所述聚类结果。
在该实施方式中,通过将第一簇中的一个数据和第二簇的一个数据作为一个待确认数据对,并依据待确认数据对中的两个数据之间的相似度,确定待确认数据对是否为支持合并数据对。若待确认数据对中支持合并数据对的占比达到第二期望值,表征第一簇中的数据与第二簇中的数据之间的相似度高,进而执行合并第一簇和第二簇的操作,可提高合并第一簇和第二簇的准确率。因此,基于第一合并分数和参考值,得到聚类结果,可提高聚类结果的准确率。
结合本申请任一实施方式,所述基于所述第一合并分数和所述参考值,得到所述聚类结果,包括:
在所述第一合并分数大于或等于第二阈值的情况下,基于所述参考值,得到所述聚类结果。
结合本申请任一实施方式,所述在所述第一合并分数大于或等于第二阈值的情况下,基于所述参考值,得到所述聚类结果,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京市商汤科技开发有限公司,未经北京市商汤科技开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010106959.9/2.html,转载请声明来源钻瓜专利网。