[发明专利]一种基于信息变化率及条件互信息的特征变量选择方法有效
申请号: | 201911050233.1 | 申请日: | 2019-10-31 |
公开(公告)号: | CN110942149B | 公开(公告)日: | 2020-09-22 |
发明(设计)人: | 李琼芳;韩幸烨;刘振男;陈启慧;周正模;和鹏飞;曾天山 | 申请(专利权)人: | 河海大学;贵州理工学院 |
主分类号: | G06N5/04 | 分类号: | G06N5/04;G06N3/04 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210024 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 信息 变化 条件 互信 特征 变量 选择 方法 | ||
本发明公开了一种基于信息变化率和条件互信息的特征变量选择方法,利用互信息值最大原则选出第一个特征变量;进一步提出信息变化率概念,定量描述输入因子对输出因子的贡献率,并以其为关键的控制参数,结合条件互信息概念共同设计了变量选择既定规则,实现特征变量的高效选择;利用公共数据集验证方法的有效性。本发明提出的基于信息变化率和条件互信息的特征变量选择方法参数数学意义明确,能够定量描述输入输出变量间的线性和非线性关系,显著提高了特征变量筛选质量和筛选效率,为大数据时代机器学习技术的发展提供支撑。
技术领域
本发明属于计算机领域,具体涉及一种基于信息变化率及条件互信息的特征变量选择方法。
背景技术
大数据时代的来临为当今社会发展带来了更加丰富的信息资源,然而,并非所有数据都具备相同的信息携带能力,数据量的增加不仅增加了有效信息的丰富度,也会同时增加不相关信息、冗余特征等无效数据,从而增加有效信息的提取难度。因此,对大数据库进行深入挖掘,提高有效信息的提取与利用能力,是大数据时代影响下计算机及机器学习领域发展的重要方向。
特征变量选择是机器学习领域常用的数据降维方法,能够有效地从海量数据中选择出与目标信息相关性强而特征之间冗余性最低的特征子集。利用特征变量选择筛选机器学习模型输入变量能够有效降低数据获取的成本,提高计算效率,降低建模的复杂性,提高模型的泛化能力,最终达到提高分析精度,优化算法计算结果的目的,从而推动计算机信息处理技术的发展,使大数据更加有效地服务于社会及经济发展需求。
最初的特征变量选择多基于线性关系,如相关关系法能够准确地判定变量间的线性关系;但实际应用中输出变量与输入变量间多为复杂的非线性关系,基于这一特性,来源于信息论,能够准确反映变量间非线性关系的互信息(Mutual information,MI)方法被广泛用于复杂关系下的特征变量筛选。
基于互信息的特征变量选择方法并未考虑特征子集间的相关性,易产生较多的特征冗余。针对这一问题,众多学者以能够同时评价线性与非线性关系的互信息为基础,提出了大量的因子识别方法。MIFS算法、MMIFS算法、NMIFS算法就是典型的代表,但以上算法中的关键参数无明确的数学或物理意义,只能采用试算或人为设定进行选取,主观性过强且剔除因子间重复信息能力欠佳;MPA-MMIFS算法能够综合评价待选因子对目标量的贡献度,但是其需要对大量原始数据进行随机采样,计算过程耗时较长;CMIFS算法更加精确的计算出了冗余信息量,但未能考虑入选顺序对输出量有效信息度的影响。目前构建合理、高效的特征变量选择方法仍然是机器学习领域的重要研究热点。
发明内容
发明目的:本发明提供一种基于信息变化率及条件互信息的特征变量选择方法,能够以少量的参数、简便的计算优化特征变量选择过程,有效提高数据的提取与利用能力,为现代信息技术的更广泛应用奠定基础。
技术方案:本发明所述的一种基于信息变化率及条件互信息的特征变量选择方法,包括以下步骤:
(1)初始化阶段:获取待选特征变量数据集、模型输出目标,令F为待选因子初始集,S是用于存放最终入选因子的空集,c是输出因子;
(2)依次计算待选因子fi与输出因子c之间的互信息值;
(3)根据互信息值最大原则确定第一个入选因子;
(4)基于信息论提出信息变化率的概念;
(5)根据条件互信息和信息变化率确定其他入选因子,完成特征变量选择;
(6)将所提取的特征变量输入自适应神经模糊推理系统进行住宅价值的预测。
进一步地,所述步骤(2)通过以下公式实现:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学;贵州理工学院,未经河海大学;贵州理工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911050233.1/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置