[发明专利]一种基于标签关联性的分类方法及系统在审

申请号：	202111399335.1	申请日：	2021-11-19
公开（公告）号：	CN113989607A	公开（公告）日：	2022-01-28
发明（设计）人：	彭黎文	申请（专利权）人：	四川警察学院
主分类号：	G06V10/82	分类号：	G06V10/82;G06K9/62;G06N20/00
代理公司：	成都华风专利事务所(普通合伙) 51223	代理人：	张巨箭
地址：	646000 ***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于标签关联性分类方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于标签关联性的分类方法及系统，属于计算机技术领域，所述方法包括以下内容：获取多标签数据样本集，并将多标签数据样本集转换成单标签数据集；计算所述单标签数据集中所有样本的标签子集，构建基于所述标签子集的新的样本数据集；所述标签子集的计算包括：计算样本中所有特征的重要性，同时计算特征之间的相关性，并选出排序靠前的标签，构建标签子集；将每个样本的标签子集放入到原来的样本中，得到新的单标签数据集；基于新的单标签数据集构建单标签分类模型，然后统计每个样本在每个单标签分类模型中的标签，得出最终的多标签分类结果。本发明通过分析标签之间的关联性，有效地提升分类模型的性能。

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于标签关联性的分类方法及系统。

背景技术

多标签分类能较好的处理数据同时属于多个类别的情况，被广泛应用于现实场景中，例如一幅画同时属于“风景”“人物”“山水”等类别。为了对真实世界中的多义性对象进行准确的划分，多标签模型被人们广泛的研究。

在机器学习领域，提出了很多的多标签分类算法，现有的多标签分类方案通常是基于多个单标签分类模型实现的，利用多个单标签分类模型分别对多标签任务进行分类，然后，将所有单标签分类器的预测结果的合集作为该多标签任务的最终预测结果，单标签分类器的预测准确性会直接影响多标签分类的准确性。而在实际应用中，用于每个单标签分类器的样本会比较少，如此会使得单个单标签分类器的预测结果准确性较差，从而会影响多标签任务的最终预测结果的准确性，且现有的多标签分类算法往往未考虑标签间的关联性。

发明内容

本发明的目的在于克服现有技术中多标签分类方法准确性较差的问题，提供一种基于标签关联性的分类方法及系统。

本发明的目的是通过以下技术方案来实现的：

提供一种基于标签关联性的分类方法，所述方法包括以下内容：

获取多标签数据样本集，并将多标签数据样本集转换成单标签数据集；

计算所述单标签数据集中所有样本的标签子集，构建基于所述标签子集的新的样本数据集；所述标签子集的计算包括：计算样本中所有特征的重要性，同时计算特征之间的相关性，并选出排序靠前的标签，构建标签子集；

将每个样本的标签子集放入到原来的单标签数据集的样本中，得到新的单标签数据集；

基于新的单标签数据集构建单标签分类模型，然后统计每个样本在每个单标签分类模型中的标签，得出最终的多标签分类结果。

作为一选项，所述将多标签数据样本集转换成单标签数据集，包括：

将多标签数据样本集中的单个标签对应到每一个样本中，分解成与标签数量等同的数据子集。

作为一选项，所述方法还包括：

对所述多标签数据样本集进行预处理，所述预处理包括：