[发明专利]基于改进蝙蝠算法的文本特征选择方法、装置及存储介质在审
申请号: | 202110116530.2 | 申请日: | 2021-01-28 |
公开(公告)号: | CN112800224A | 公开(公告)日: | 2021-05-14 |
发明(设计)人: | 刘丽珏;吴小玉 | 申请(专利权)人: | 中南大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/383;G06K9/62;G06N3/00;G06N3/12;G06N20/00;G16H50/70 |
代理公司: | 长沙市融智专利事务所(普通合伙) 43114 | 代理人: | 胡喜舟 |
地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 改进 蝙蝠 算法 文本 特征 选择 方法 装置 存储 介质 | ||
本发明公开了一种基于改进蝙蝠算法的文本特征选择方法、装置及存储介质,其中方法包括获取若干文本特征数据集,并对若干文本特征数据集进行预处理,得到若干初始文本特征向量;利用改进蝙蝠算法对若干文本特征向量进行迭代训练,得到多个精英文本特征子集。引入莱维飞行策略改进蝙蝠的位置更新方式,以确保单个蝙蝠不会被局限在最优蝙蝠的附近,即确保文本数据特征提取不会陷入局部最优解;每次迭代的适应度较低的几个蝙蝠实行差分进化,提高了蝙蝠的多样性和总体适应度;使用精英保留策略,可避免较优的解在迭代时消失,使精英蝙蝠始终保持全局最佳的几个蝙蝠的位置,在后续的特征集成过程中获得更好的集成效果。
技术领域
本发明涉及特征提取领域,尤其涉及一种基于改进蝙蝠算法的文本特征选择方法、装置及存储介质。
背景技术
随着信息社会进入大数据时代,数据的快速增长既是机遇也是挑战。一方面,大数据可以为机器学习提供大规模的样本进行训练,另一方面,大数据的海量性会造成信息冗余。基于机器学习的方法可以将大量的琐碎的文本数据转化为有价值的信息,并且是非侵入性的,廉价且快速的,而且通常具有更高的准确率。由于大量的文本数据中充斥着许多冗余的数据,高维度的特征使得文本数据的信息难以被有效利用,导致算法学习性能下降,也增加了算法的时间和内存需求。因此特征选择是重要的,利用特征选择技术选取有用的特征可以有效的提高算法的性能。目前已经有很多算法用来进行特征的选择,有些基于评价函数对特征重要性进行排序,通过分析特征子集内部的特点来衡量其好坏,常见的评价指标有基于信息增益、基于距离、基于相关性等;还有一些算法用选取的特征子集对样本进行分类,将分类的精度作为衡量特征子集好坏的标准。但是这些算法没有考虑特征之间的相互影响和不同特征组合的表现,只是单一地评价某个特征的好坏。
近年来,由于启发式算法的优秀表现,特征选择算法开始越来越多的倾向于采用启发式算法来选择特征子集。其典型的启发式算法有,遗传算法,粒子群优化,蚁群优化,蝙蝠算法等等。其中蝙蝠算法由于其简单,有效的搜索机制,具有鲁棒性强和并行程度高等优点,越来越多被应用于策略识别和数据挖掘等领域。然而蝙蝠算法也存在一些缺点,比如容易陷入局部最优解,缺乏种群多样性,并且每个蝙蝠单纯受到全局最优个体的影响。
发明内容
本发明提供了一种基于改进蝙蝠算法的文本特征选择方法、装置及存储介质,以解决现有的基于蝙蝠算法的文本数据特征提取方法容易陷入局部最优解,缺乏种群多样性的问题。
第一方面,提供了一种基于改进蝙蝠算法的文本特征选择方法,包括:
S1:获取若干文本特征数据集,并对若干文本特征数据集进行预处理,得到若干初始文本特征向量;
S2:利用改进蝙蝠算法对若干文本特征向量进行迭代训练,得到多个精英文本特征子集;具体包括如下步骤:
S21:初始化蝙蝠种群;
S22:计算每个蝙蝠的适应度值;
S23:根据每个蝙蝠的适应度值选取自适应度值最高的N个蝙蝠作为精英蝙蝠保留,其中N为预设值;
S24:结合莱维飞行策略对非精英蝙蝠进行位置更新;
S25:将适应度值最低的X个蝙蝠进行差分进化,其中X为预设值;
S26:计算所有蝙蝠的适应度值,并据此更新精英蝙蝠;
S27:重复步骤S24~S26直至完成预设迭代次数,得到N个精英蝙蝠,每个精英蝙蝠表示一个精英文本特征子集。
进一步地,所述步骤S21包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110116530.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于水工盾构建筑结构加强固定装置
- 下一篇:一种蒙脱土改性剂