[发明专利]一种用户客群分类方法和装置有效

申请号：	201710293870.6	申请日：	2017-04-28
公开（公告）号：	CN108304427B	公开（公告）日：	2020-03-17
发明（设计）人：	陈玲;户保田	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06F16/35	分类号：	G06F16/35
代理公司：	深圳翼盛智成知识产权事务所(普通合伙) 44300	代理人：	黄威
地址：	518000 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种用户分类方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例公开了一种用户客群分类方法和装置；本发明实施例可以采集多个用户的用户数据，按照预设策略从这些用户数据中选择数据样本，然后，对这些数据样本进行聚类运算，并分别对每个聚类中的数据样本进行去冗余操作，得到待训练样本集，再基于该待训练样本集进行分类模型训练，并根据训练后分类模型对待分类数据进行客群分类；该方案不仅可以大大加快分类模型的收敛，而且可以提高分类模型的准确率和泛化能力，有利于提高数据分类的效率。

技术领域

本发明涉及通信技术领域，具体涉及一种用户客群分类方法和装置。

背景技术

在许多数据分类应用中，如文本分类、图像分类、以及特殊客群的挖掘等，都需要大量的标注样本来进行分类模型训练，而标注样本通常难以自动获取，一般都需要人工进行标注。

为了标注尽可能少的样本，现有通常采用随机选择样本的方式来进行标注，但这种方式可能会使样本分布与预期样本分布不一致，导致分类模型过拟合或者准确率不高，因此，现有技术又提出了“主动学习算法”方案。该主动学习算法，可以通过有选择性的从大量未标注的样本中选择最有价值的样本进行人工标注，从而达到在有效控制样本集大小的基础上，提高准确率的目的。其中，主动学习的过程主要分为两部分：学习器和选择器。学习器即分类算法模型(简称分类模型)，负责对已标注的样本进行学习预测，而选择器则用于有针对性地选择未标注样本进行人工标注，然后再放到已标注样本集中供学习器学习。目前选择器算法有最大化信息量算法，最小化解释空间算法等。这些算法每次迭代都需要对所有未标注样本计算信息熵或者置信度，并进行排序，然后基于排序记过选择值较大的样本进行人工标注。

发明内容

在对现有技术的研究和实践过程中，本发明的发明人发现，由于在现有方案中，一般都会将信息熵或者置信度较大的样本挑选出来进行标注，但是，这些样本之间的相似性也可能较大，因此，往往会出现样本过于集中的情况，不利于分类模型的收敛，大大影响分类模型的准确率和泛化能力，导致数据分类的效率较低。

本发明实施例提供一种用户客群分类方法和装置，不仅可以大大加快分类模型的收敛，而且可以提高分类模型的准确率和泛化能力，有利于提高数据分类的效率。

本发明实施例提供一种用户客群分类方法，包括：

采集多个用户的用户数据，所述用户数据包括多种用户行为类别的数据；

按照预设策略从所述多个用户的用户数据中选择数据样本，得到数据样本集；

对所述数据样本集中的数据样本进行聚类运算，得到多个聚类；

分别对每个聚类中的数据样本进行去冗余操作，得到待训练样本集；

基于所述待训练样本集进行分类模型训练，并根据训练后分类模型对待分类数据进行客群分类。

相应的，本发明实施例还提供一种数据分类装置，包括：

采集单元，用于采集多个用户的用户数据，所述用户数据包括多种用户行为类别的数据；

选择单元，用于按照预设策略从所述多个用户的用户数据中选择数据样本，得到数据样本集；