[发明专利]一种基于标签关联性的分类方法及系统在审
申请号: | 202111399335.1 | 申请日: | 2021-11-19 |
公开(公告)号: | CN113989607A | 公开(公告)日: | 2022-01-28 |
发明(设计)人: | 彭黎文 | 申请(专利权)人: | 四川警察学院 |
主分类号: | G06V10/82 | 分类号: | G06V10/82;G06K9/62;G06N20/00 |
代理公司: | 成都华风专利事务所(普通合伙) 51223 | 代理人: | 张巨箭 |
地址: | 646000 *** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 标签 关联性 分类 方法 系统 | ||
本发明公开了一种基于标签关联性的分类方法及系统,属于计算机技术领域,所述方法包括以下内容:获取多标签数据样本集,并将多标签数据样本集转换成单标签数据集;计算所述单标签数据集中所有样本的标签子集,构建基于所述标签子集的新的样本数据集;所述标签子集的计算包括:计算样本中所有特征的重要性,同时计算特征之间的相关性,并选出排序靠前的标签,构建标签子集;将每个样本的标签子集放入到原来的样本中,得到新的单标签数据集;基于新的单标签数据集构建单标签分类模型,然后统计每个样本在每个单标签分类模型中的标签,得出最终的多标签分类结果。本发明通过分析标签之间的关联性,有效地提升分类模型的性能。
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于标签关联性的分类方法及系统。
背景技术
多标签分类能较好的处理数据同时属于多个类别的情况,被广泛应用于现实场景中,例如一幅画同时属于“风景”“人物”“山水”等类别。为了对真实世界中的多义性对象进行准确的划分,多标签模型被人们广泛的研究。
在机器学习领域,提出了很多的多标签分类算法,现有的多标签分类方案通常是基于多个单标签分类模型实现的,利用多个单标签分类模型分别对多标签任务进行分类,然后,将所有单标签分类器的预测结果的合集作为该多标签任务的最终预测结果,单标签分类器的预测准确性会直接影响多标签分类的准确性。而在实际应用中,用于每个单标签分类器的样本会比较少,如此会使得单个单标签分类器的预测结果准确性较差,从而会影响多标签任务的最终预测结果的准确性,且现有的多标签分类算法往往未考虑标签间的关联性。
发明内容
本发明的目的在于克服现有技术中多标签分类方法准确性较差的问题,提供一种基于标签关联性的分类方法及系统。
本发明的目的是通过以下技术方案来实现的:
提供一种基于标签关联性的分类方法,所述方法包括以下内容:
获取多标签数据样本集,并将多标签数据样本集转换成单标签数据集;
计算所述单标签数据集中所有样本的标签子集,构建基于所述标签子集的新的样本数据集;所述标签子集的计算包括:计算样本中所有特征的重要性,同时计算特征之间的相关性,并选出排序靠前的标签,构建标签子集;
将每个样本的标签子集放入到原来的单标签数据集的样本中,得到新的单标签数据集;
基于新的单标签数据集构建单标签分类模型,然后统计每个样本在每个单标签分类模型中的标签,得出最终的多标签分类结果。
作为一选项,所述将多标签数据样本集转换成单标签数据集,包括:
将多标签数据样本集中的单个标签对应到每一个样本中,分解成与标签数量等同的数据子集。
作为一选项,所述方法还包括:
对所述多标签数据样本集进行预处理,所述预处理包括:
对数据特征值缺失的样本进行删除处理,保留数据特征完整的样本,然后将多标签数据样本集随机划分为训练集和测试集。
作为一选项,通过F-score公式计算各个特征的重要性,所述F-score公式为:
,
其中,Fi越大,该特征xi的类辨能力越强。
作为一选项,使用互信息计算特征之间的相关性,计算公式如下:
,
X表示特征变量,Y表示标签变量,p(xi)和p(yj)分别是变量X和Y的边缘概率,p(xi,yj)是X和Y的联合概率分布函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川警察学院,未经四川警察学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111399335.1/2.html,转载请声明来源钻瓜专利网。