[发明专利]分类器生成方法、分类方法、装置、电子设备及存储介质有效

申请号：	201711217129.8	申请日：	2017-11-28
公开（公告）号：	CN107992887B	公开（公告）日：	2021-02-19
发明（设计）人：	邹荣珠	申请（专利权）人：	东软集团股份有限公司
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	薛娇;王宝筠
地址：	110179 辽***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	分类生成方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例公开了一种分类器生成方法、分类方法、装置、电子设备及存储介质，将特征向量集合对应的特征集划分为多个子特征集，依据多个子特征集中的特征，将特征向量集合中的特征向量划分为分别与每个子特征集对应的子特征向量集合，对应每个子特征向量集合建立初始分类器，对初始分类器进行协同训练，得到半监督分类器。也就是说，不同的分类器使用同一特征向量的不同的子特征向量进行训练，因此，所生成的分类器利用了相同数据的不同特征之间差异，提高了半监督分类方法的分类效果的稳定性。

技术领域

本发明涉及机器学习技术领域，更具体地说，涉及一种分类器生成方法、分类方法、装置、电子设备及存储介质。

背景技术

分类问题是数据分析和数据挖掘等领域中的热点问题之一。数据分类通常分为模型训练和类别预测两个步骤，即先由标记好类别的数据训练分类模型，然后根据分类模型预测新数据的类别。然而，大量标记好类别的数据是很难获取的，因为获得这些标记需要耗费大量的人力物力。事实上，在真实世界中通常存在大量的无标记数据，有标记数据则比较少。为此，研究者提出半监督分类方法，它主要考虑如何利用少量的有标记数据和大量的无标记数据进行模型训练和类别预测的问题。

通常，半监督分类方法根据使用的分类器的数量，分为单分类器方法和多分类器方法。多分类器方法由于可以利用分类器之间的差异(即分类器所使用分类算法的差异)使得分类器具有较强的分类能力和较快的收敛速度而应用更广。

然而，发明人在实现本申请过程中发现，现有的使用多分类器的半监督分类方法的分类效果不稳定。

发明内容

本发明的目的是提供一种分类器生成方法、分类方法、装置、电子设备及存储介质，以提高半监督分类方法的分类效果的稳定性。

为实现上述目的，本发明提供了如下技术方案：

一种分类器生成方法，包括：

将文本数据集的特征向量集合对应的特征集划分为多个子特征集，所述特征向量集合中包括有标记文本数据的特征向量和无标记文本数据的特征向量；

依据所述多个子特征集中的特征，将所述特征向量集合中的特征向量进行划分，得到分别与每个子特征集对应的子特征向量集合；

利用所述子特征向量集合中的有标记文本数据的子特征向量对预设分类模型进行训练，得到所述子特征向量集合对应的初始分类器；

利用子特征向量集合中的有标记文本数据的子特征向量和无标记文本数据的子特征向量，将得到的初始分类器进行协同训练，得到半监督分类器。

上述方法，优选的，所述将特征向量集合对应的特征集划分为多个子特征集，包括：

获取各个特征对类别的贡献度，所述类别为有标记文本数据被标记出的类别；