[发明专利]一种面向不完备混合数据的增量式特征选择方法在审
申请号: | 202110263764.X | 申请日: | 2021-03-11 |
公开(公告)号: | CN113470826A | 公开(公告)日: | 2021-10-01 |
发明(设计)人: | 罗川;唐荣;皮洪;马磊 | 申请(专利权)人: | 四川大学 |
主分类号: | G16H50/70 | 分类号: | G16H50/70;G06K9/62 |
代理公司: | 四川省成都市天策商标专利事务所 51213 | 代理人: | 郭会 |
地址: | 610000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 完备 混合 数据 增量 特征 选择 方法 | ||
本发明公开了一种面向不完备混合数据的增量式特征选择方法,包括:通过确定并分析不完备混合信息系统中样本集动态增长时特征空间上邻域容差相似类与标签空间上决策等价类的动态更新模式,构造邻域容差信息熵、联合熵、以及条件熵的增量更新机制;将所述增量更新机制引入到启发式特征选择方法中特征重要度的迭代计算过程,设计出基于动态不完备混合决策系统的增量式特征选择方法。本发明的方法可以快速处理含有缺失值、分类型特征以及数值型特征的不完备混合数据,有效解决传统启发式特征选择算法当新增数据时占用大量计算时间的问题,实现有效降低特征选择计算时间。
技术领域
本发明涉及知识发现以及数据挖掘处理技术领域,特别涉及一种面向不完备混合数据的增量式特征选择方法。
背景技术
随着数据的不断增加,知识发现与数据挖掘中的这些数据表现出高维特性。在数据的应用中,如果直接使用这些数据,不仅会增加计算的复杂度,还很容易造成知识发现与数据挖掘算法出现过拟合的现象,从而影响其学习性能。同时,数据也表现出了不完备的特性,如当前获取的数据可能存在缺失的情况。
特征选择的目标是在给定评价标准下选择非冗余的特征子集,其作为一项重要的数据预处理步骤,能够有效的提高数据分析模型的准确性和高效性,在数据挖掘与知识发现中起着重要的作用。
为处理如临床检测数据这样的混合数据,前人提出邻域粗糙集模型用于处理相应的混合数据。除此之外,特征选择也可用于缺陷诊断、图像检索系统等方面,同时也可用于处理数据挖掘以及知识发现等学习算法的输入数据降维。
另一方面,数据随时间的推移呈现出动态更新的变化趋势,数据的采集与分析是一个不断优化升级的动态过程。面向动态数据的高效特征选择方法成为了当前人们普遍关注的一个研究热点。增量学习技术可以有效利用已有计算结果进行特征选择的增量计算,以发现新的特征子集,从而避免在获取新的特征子集时重复计算整个特征空间。因此为了提高特征选择过程中的计算效率,引入增量学习技术可以有效提高计算效率。
例如当今世界中的临床诊断中,医生需要丰富的经历才能依据相应的检查结果判断出结果,通过数据挖掘与知识发现等领域的学习算法,我们可以进一步帮助医生进行临床上的诊断,并且提高患者的就诊效率。但数据挖掘与知识发现等领域的学习方法因当前数据中存在着许多的冗余或不相关的数据,因此便需要针对输入数据进行相应的预处理步骤,而特征选择便是一种用于处理数据的技术。
但传统启发式特征选择方法面对新增数据时,不能快速得到结果,且传统启发式特征选择方法当新增数据时会重新计算所有数据,这将导致计算占用大量的计算时间。
发明内容
本发明的目的是克服上述背景技术中不足,提供一种面向不完备混合数据的增量式特征选择方法,拟在不完备数据中邻域粗糙集模型基本原理与运用的研究基础上,结合增量学习技术的优点,刻画了不完备混合信息系统中样本集动态增长时特征空间上邻域容差相似类与标签空间上决策等价类的动态更新模式,建立了邻域容差信息熵、联合熵、以及条件熵的增量更新机制,并将该机制引入到启发式特征选择方法中特征重要度的迭代计算过程,进而设计了不完备混合数据中面向样本规模动态增长时的增量式特征选择方法,可以快速处理含有缺失值、分类型特征以及数值型特征的不完备混合数据,可应用于医疗行业中患者的检测报告数据处理、天气的预测数据处理等方面。
为了达到上述的技术效果,本发明采取以下技术方案:
一种面向不完备混合数据的增量式特征选择方法,包括:
通过确定并分析不完备混合信息系统中样本集动态增长时特征空间上邻域容差相似类与标签空间上决策等价类的动态更新模式,构造邻域容差信息熵、联合熵、以及条件熵的增量更新机制;将所述增量更新机制引入到启发式特征选择方法中特征重要度的迭代计算过程,设计出基于动态不完备混合决策系统的增量式特征选择方法;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110263764.X/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置