[发明专利]一种嵌入式多类别属性标签动态特征选择算法在审

专利信息
申请号: 201710222600.6 申请日: 2017-04-06
公开(公告)号: CN106991447A 公开(公告)日: 2017-07-28
发明(设计)人: 黄金杰;孔庆达;潘晓真 申请(专利权)人: 哈尔滨理工大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 暂无信息 代理人: 暂无信息
地址: 150080 黑龙*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 嵌入式 类别 属性 标签 动态 特征 选择 算法
【说明书】:

技术领域

发明涉及模式识别领域,具体是一种嵌入式多类别属性标签动态特征选择方法。

背景技术

传统互信息度量算法因其在高维属性数据处理过程中具有运算速度快、效率比较高等优点,被广泛用于特征维度约简算法中。但随着科学技术的迅速发展,很多技术领域比如计算机网络通信、生化医学工程都朝着多类别属性标签数据类型方向发展。多标签分类问题就是根据多标签数据的类型特点,构建相应的分类模型,并根据判别准则对未知数据的类别属性进行判断,将样本数据同时划分到多个类别标签中。单一标签属性分类问题和多标签属性分类问题的根本区别是单一标签属性分类问题样本数据只能属于一个类别标签,而多标签属性的分类问题样本数据可以属于多个类别标签,这十分符合现阶段信息数据高度发展的特点。因此得到了广泛关注。

多标签属性的分类与传统的单一的标签属性分类一样,多标签属性分类问题也同样面临着“维度灾难”问题,“维度灾难”也同样严重影响着多标签属性分类器的分类能力。特征属性的“降维技术”可以降低特征属性的维度,提高分类器的分类准确率,在单一的标签属性分类问题中适用的同时,多标签属性分类问题中也同样可以使用特征属性的这种技术,以达到属性约简的效果。特征“降维”技术大体上一般分为特征选择和特征提取两个方面,特征选择根据其评价准则的不同分为,过滤式、包裹式、嵌入式。本发明主要研究多标签特征选择问题。

多标签特征选择算法现阶段存在两种基本的发展方向:一方面是数据转换的算法方向,一方面是算法适应方向。基于数据转换的特征选择算法研究是将所标签数据进行转化,转化为单一标签类别属性,多次运用单一标签的特征选择算法以达到多标签特征选择的目的。基于算法适应的特征选择算法研究是将单一标签的特征选择算法进行变形与算法改进,使其适应多标签属性的特征选择算法。现阶段的常见算法有基于数据转化的SVM特征选择算法,KNN算法,这些算法没有考虑到标签属性内部的相关关系,基于互信息的特征选择算法可以依据信息论中互信息的相关知识很好的分析属性之间的相关性关系。但是常用来衡量两变量之间的相互关系的互信息的估算方法仍未足够的有效,仅考虑特征与类别之间的相互关系以及特征与已选特征之间的相互关系,没有将随着特征被选择样本数据被不断被确定,信息熵的估算值在不断变化的动态过程表现出来。

基于以上所考虑的问题,本发明提出了一种嵌入式多类别属性标签动态特征选择算法(ML-DIFS),该算法通过互信息计算,不但考虑特征属性与标签属性之间的相互关系还考虑特征属性之间的相关性和冗余性,同时还考虑到多标签属性内部,标签属性与标签属性之间的相互关系。提出的嵌入式动态多标签特征选择算法,通过嵌入的分类器将已识别的样本数据进行剔除,以此保证信息熵估算的准确性、实时性。

发明内容

本发明的目的在于提供一种基于嵌入式多类别属性标签动态特征选择方法,以解决上述背景技术中提出的问题;为实现上述目的,本发明提供如下技术方案:具体是一种基于嵌入式多类别属性标签动态特征选择方法包括以下步骤:

首先介绍传统基于互信息的特征选择方法。

1.数据集合预处理

当今在现实世界中数据库极其容易受到噪声数据、空缺数据、以及不一致数据的侵扰,现阶段有大量的数据预处理技术,大体上可以分为数据清理、数据集成、数据变换和数据规约技术。数据清理可以清除数据中噪声数据、纠正不一致,自行填补样本数据的缺失数据,数据变换(数据规范化)可以改进涉及距离度量的算法的精度和有效性。比如人们希望数据满足某种特定的数据分布,或者希望将每个数据特征映射到某一段特定的数据区间内,都是需要进行数据变换。对于本文而言数据集合的预处理主要分一下几个部分:第一将数据集合中的噪声数据和不一致数据空缺数据进行处理。第二将数据集中与分类完全不相关的属性数据进行删除。第三将属性数据进行范数归一化处理使范数归一化为1,则有:

2.互信息的相关知识

特征选择的选择目标是选择出对于分类最有价值的特征属性,特征选择中关键性需要解决的问题是度量问题,度量问题要考虑属性集与类别标签之间的相关性关系、属性集和属性集的冗余性关系、以及标签属性集内部的相关关系。因此针对这种相互关系问题讨论,选择信息论中的互信息作为度量标准来分析属性间的相关性。下面介绍一下信息论中相关理论和运算规则。

信息熵是信息论理论中至关重要的概念,信息熵是表征变量的一种不确定程度,目的是表述信息含量的多少。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710222600.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top