[发明专利]一种基于标签关联性的分类方法及系统在审
申请号: | 202111399335.1 | 申请日: | 2021-11-19 |
公开(公告)号: | CN113989607A | 公开(公告)日: | 2022-01-28 |
发明(设计)人: | 彭黎文 | 申请(专利权)人: | 四川警察学院 |
主分类号: | G06V10/82 | 分类号: | G06V10/82;G06K9/62;G06N20/00 |
代理公司: | 成都华风专利事务所(普通合伙) 51223 | 代理人: | 张巨箭 |
地址: | 646000 *** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 标签 关联性 分类 方法 系统 | ||
1.一种基于标签关联性的分类方法,其特征在于,所述方法包括以下内容:
获取多标签数据样本集,并将多标签数据样本集转换成单标签数据集;
计算所述单标签数据集中所有样本的标签子集,构建基于所述标签子集的新的样本数据集;所述标签子集的计算包括:计算样本中所有特征的重要性,同时计算特征之间的相关性,并选出排序靠前的标签,构建标签子集;
将每个样本的标签子集放入到原来单标签数据集的样本中,得到新的单标签数据集;
基于新的单标签数据集构建单标签分类模型,然后统计每个样本在每个单标签分类模型中的标签,得出最终的多标签分类结果。
2.根据权利要求1所述的一种基于标签关联性的分类方法,其特征在于,
所述将多标签数据样本集转换成单标签数据集,包括:
将多标签数据样本集中的单个标签对应到每一个样本中,分解成与标签数量等同的数据子集。
3.根据权利要求1所述的一种基于标签关联性的分类方法,其特征在于,所述方法还包括:
对所述多标签数据样本集进行预处理,所述预处理包括:
对数据特征值缺失的样本进行删除处理,保留数据特征完整的样本,然后将多标签数据样本集随机划分为训练集和测试集。
4.根据权利要求1所述的一种基于标签关联性的分类方法,其特征在于,通过F-score公式计算各个特征的重要性,所述F-score公式为:
,
其中,Fi越大,该特征xi的类辨能力越强。
5.根据权利要求4所述的一种基于标签关联性的分类方法,其特征在于,使用互信息计算特征之间的相关性,计算公式如下:
,
X表示特征变量,Y表示标签变量,p(xi)和p(yj)分别是变量X和Y的边缘概率,p(xi,yj)是X和Y的联合概率分布函数。
6.根据权利要求5所述的一种基于标签关联性的分类方法,其特征在于,通过计算F-score+MI(X,Y)排序在前50%的标签选择出来。
7.根据权利要求3所述的一种基于标签关联性的分类方法,其特征在于,训练集和测试集的比例为1:1。
8.根据权利要求1所述的一种基于标签关联性的分类方法,其特征在于,使用决策树算法构建单标签分类模型。
9.根据权利要求1所述的一种基于标签关联性的分类方法,其特征在于,所述多标签数据样本集中包含多个不同的标签,包含多个不同的特征。
10.一种基于标签关联性的分类系统,其特征在于,所述系统包括:
样本获取模块,用于获取多标签数据样本集,并将多标签数据样本集转换成单标签数据集;
标签子集计算模块,用于计算所述单标签数据集中所有样本的标签子集,构建基于所述标签子集的新的样本数据集;所述标签子集的计算包括:计算样本中所有特征的重要性,同时计算特征之间的相关性,并选出排序靠前的标签,构建标签子集;
样本重组模块,用于将每个样本的标签子集放入到原来的样本中,得到新的单标签数据集;
建模和分类模块,用于基于新的单标签数据集构建单标签分类模型,然后统计每个样本在每个单标签分类模型中的标签,得出最终的多标签分类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川警察学院,未经四川警察学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111399335.1/1.html,转载请声明来源钻瓜专利网。