[发明专利]基于FCBF的自定义特征维数文本特征选择算法有效
申请号: | 201910071963.3 | 申请日: | 2019-01-25 |
公开(公告)号: | CN109885682B | 公开(公告)日: | 2022-08-16 |
发明(设计)人: | 于舒娟;张昀;徐前川;何伟 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 董建林 |
地址: | 210046 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于FCBF的自定义特征维数文本特征选择算法,包括步骤:步骤一,初始化;步骤二,利用FCBF算法对特征词集合中的特征词进行进一步的筛选,得到初始特征词集合;步骤三,若初始特征词集合的维度小于设定的维度时,选择特征词与类别的相关性值排名靠前的特征去补足初始特征词集合直至其维度等于设定的特征维度;若初始特征词集合的维度刚好大于或等于设定的特征维度时,则初始特征词集合中即可获取到自定义特征维数的特征词。本发明对FCBF原始算法相关性计算公式进行改进,能够更加准确的选择文本特征,改进算法能够得到自定义的特征维度。 | ||
搜索关键词: | 基于 fcbf 自定义 特征 文本 选择 算法 | ||
【主权项】:
1.一种基于FCBF的自定义特征维数文本特征选择算法,其特征在于:包括步骤:步骤一,设向量化文本矩阵为X,文本类别矩阵为C={C1,C2...Cj},Cj是训练文本Dj的类别,j=1,2...V,V是文本类别总个数,根据文本矩阵X初始化所有特征词集合T={t1,t2...tm},为特征词与类别相关性符合要求的特征词集合Slist={}赋值,为经过算法选择后的特征词集合Sbest赋初值,tm为第m个特征词;步骤二,利用FCBF算法对特征词集合Slist中的特征词进行进一步的筛选,得到初始特征词集合Sbest;步骤三,若初始特征词集合Sbest的维度小于设定的维度时,选择特征词与类别的相关性值排名靠前的特征去补足初始特征词集合Sbest直至其维度等于设定的特征维度;若初始特征词集合Sbest的维度刚好大于或等于设定的特征维度时,则初始特征词集合Sbest中即可获取到自定义特征维数的特征词。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910071963.3/,转载请声明来源钻瓜专利网。