[发明专利]数据处理方法及装置、处理器、电子设备、存储介质在审

申请号：	202010106959.9	申请日：	2020-02-20
公开（公告）号：	CN111340084A	公开（公告）日：	2020-06-26
发明（设计）人：	王飞;黄厚钧;李诚;钱晨;楼赞	申请（专利权）人：	北京市商汤科技开发有限公司
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	广州三环专利商标代理有限公司 44202	代理人：	熊永强;董文俊
地址：	100142 北京市海淀区北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	数据处理方法装置处理器电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种数据处理方法及装置、处理器、电子设备、存储介质。该方法包括：获取待聚类簇对和聚类网络，其中，所述聚类网络以簇对的纯度为监督信息训练得到，所述所述簇对的纯度用于表征簇对中的参考类别的纯度，所述参考类别为所述簇对中包含数据的数量最多的类别；使用所述聚类网络对所述待聚类簇对进行处理，得到第一合并分数，其中，所述第一合并分数用于表征所述待聚类簇对的纯度；基于所述第一合并分数，得到所述待聚类簇对的聚类结果。

技术领域

本申请涉及计算机技术领域，尤其涉及一种数据处理方法及装置、处理器、电子设备、存储介质。

背景技术

随着深度学习的快速发展，机器学习可应用的领域越来越多。而在将深度学习的模型应用到不同的领域之前，需要对该模型进行训练，而训练需要大量已标注的数据作为训练数据。若通过人工标注的方式获得训练数据带来的人力成本高，且标注效率低。因此，如何通过机器完成对数据的标注就变得非常有意义。

通过对无标注数据进行聚类，可确定无标注数据的标注信息，从而实现对无标注数据的标注，得到训练数据。但传统聚类方法得到的聚类结果的准确率低，进而导致标注信息的准确率低。

发明内容

本申请提供一种数据处理方法及装置、处理器、电子设备、存储介质。

第一方面，提供了一种数据处理方法，所述方法包括：

获取待聚类簇对和聚类网络，其中，所述聚类网络以簇对的纯度为监督信息训练得到，所述簇对的纯度用于表征所述簇对中的参考类别的纯度，所述参考类别为所述簇对中包含数据的数量最多的类别；

使用所述聚类网络对所述待聚类簇对进行处理，得到第一合并分数，其中，所述第一合并分数用于表征所述待聚类簇对的纯度；

基于所述第一合并分数，得到所述待聚类簇对的聚类结果。

在该方面中，使用以纯度为监督信息训练获得的聚类网络对待聚类簇对进行处理，可获得待处理数据集中的簇对的纯度的信息，得到第一合并分数。基于第一合并分数得到聚类结果，可利用待聚类簇对的纯度的信息，从而提高聚类结果的准确率。

结合本申请任一实施方式，所述待聚类簇对包括第一簇和第二簇，所述第一簇中的数据的类别相同，所述第二簇中的数据的类别相同；

在所述基于所述第一合并分数，得到所述待聚类簇对的聚类结果之前，所述方法还包括：

将所述第一簇中的数据和所述第二簇中的数据组成待确认数据对，在所述待确认数据对中的两个数据之间的第一相似度大于或等于第一阈值的情况下，确定所述待确认数据对为支持合并数据对；

依据所述支持合并数据对的数量和所述待确认数据对的数量得到参考值；

所述基于所述第一合并分数，得到所述待聚类簇对的聚类结果，包括：

基于所述第一合并分数和所述参考值，得到所述聚类结果。

在该实施方式中，通过将第一簇中的一个数据和第二簇的一个数据作为一个待确认数据对，并依据待确认数据对中的两个数据之间的相似度，确定待确认数据对是否为支持合并数据对。若待确认数据对中支持合并数据对的占比达到第二期望值，表征第一簇中的数据与第二簇中的数据之间的相似度高，进而执行合并第一簇和第二簇的操作，可提高合并第一簇和第二簇的准确率。因此，基于第一合并分数和参考值，得到聚类结果，可提高聚类结果的准确率。

结合本申请任一实施方式，所述基于所述第一合并分数和所述参考值，得到所述聚类结果，包括：

在所述第一合并分数大于或等于第二阈值的情况下，基于所述参考值，得到所述聚类结果。

结合本申请任一实施方式，所述在所述第一合并分数大于或等于第二阈值的情况下，基于所述参考值，得到所述聚类结果，包括：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京市商汤科技开发有限公司，未经北京市商汤科技开发有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010106959.9/2.html，转载请声明来源钻瓜专利网。

上一篇：一种数据加密方法、数据解密方法、计算机设备和介质
下一篇：数据处理方法及装置、处理器、电子设备、存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]数据处理方法及装置、处理器、电子设备、存储介质在审

专利文献下载