[发明专利]一种面向词和组合词的垃圾短信文本特征选择方法有效
申请号: | 201710408048.X | 申请日: | 2017-06-02 |
公开(公告)号: | CN107193804B | 公开(公告)日: | 2019-03-29 |
发明(设计)人: | 毛莺池;王绎超;齐海;贾必聪;平萍;李晓芳;徐淑芳 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 李玉平 |
地址: | 211100 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征选择 垃圾短信 组合词 文本特征选择 累积信息 特征词 元组 工程优化 逻辑回归 评价指标 随机森林 信息增益 原始特征 词信息 修饰性 遍历 构建 实词 算法 向量 信息量 文本 筛选 分类 改进 统计 | ||
本发明公开了一种面向词和组合词的垃圾短信文本特征选择方法,所述方法包括以下步骤:(1)基于统计阈值和平均信息增益的频繁词特征选择;(2)基于N‑Gram算法的双字词和组合词特征选择;(3)非修饰性实词组合成元组特征,遍历所有的垃圾短信文本寻找名词+动词\形容词组合,根据一定的标准对所得元组特征进行筛选;(4)基于累积信息增益的特征选择,选择累积信息增益达到原始特征词信息增益总和的95%的特征词,进而构建特征词向量;(5)基于垃圾短信分类评价指标的特征工程优化,加入信息量特征、基于改进几率比的特征选择、基于随机森林和逻辑回归的特征选择。
技术领域
本发明涉及一种特征选择方法,具体是一种面向词和组合词的垃圾短信文本特征选择方法,属于基于文本内容的垃圾短信识别技术领域。
背景技术
常用的文本表示模型主要有两个特点,分别为高维度和高稀疏性。如果直接使用文本表示模型将原始文本数据转换成结构化数据,不仅会增加分类器的学习和预测的计算量,降低分类模型的训练和测试效率,而且会导致分类模型过拟合,模型方差较大,泛化能力较差,对测试样本的预测准确率不高。因此,研究人员越来越关注在不降低预测准确率的前提下降低特征维度,从而提高分类模型预测性能的研究。常用特征降维方法主要有两种:一种是特征选择,另一种是特征提取。特征选择方法是从原始的特征集中选取一定数目的子集,而特征提取是对原始特征集中的特征进行组合和变换。
文档频率是一种简单而又高效的特征选择方法。Yang和Pedersen经过研究发现,文档频率能够在不降低分类器分类准确率的情况下,将文本表示模型的维度降低到到原来的十分之一,进一步,即使维度降低到原来的百分之一,分类器的分类准确率也不会降低很多。
除了文档频率之外,还有许多基于信息论或统计学的特征选择方法。最为常用的主要有:信息增益(Information Gain)、卡方检验(CHI-square)、互信息(MutualInformation)、几率比(Odds Ratio)、基于模糊度量的特征选择(Ambiguity Measure,AM)、改进的基尼指数(Improved Gini index)、基于泊松分布的度量(Measure using Poissondistribution)、基于二项假设检验的特征选择(Bi-Test)等。
文本特征选择与扩展是研究和建立分类模型的前提,精简的、有区分性的特征有助于提高分类算法的性能,是分类算法性能上限的决定性因素。在文本分类中,统计阈值、信息增益和几率比是常用的特征选择方法。简单的基于统计阈值的方法选择的特征不具有区分性;由于中文文本的复杂性,简单的基于分词结果选择特征可能并不可靠;组合词特征往往能更准确地描述垃圾短信所特有的信息;短信文本长度具有一定的区分性;传统的基于几率比的方法没有考虑某种类别下特征词的0概率现象所带来的几率比不可计算问题;基于统计阈值、信息增益和几率比的方法在阈值设定上比较困难。本发明针对这些问题提出解决方法和改进,并提出基于RF和LR的特征选择算法。
发明内容
发明目的:短信文本预处理是选择短信文本特征项的基础,预处理结果的好坏将直接影响特征选择与扩展的有效性和准确性,本发明针对现有的垃圾短信分类问题中短信文本预处理的不足,使用一种较为完善的预处理方法。
技术方案:一种面向词和组合词的垃圾短信文本特征选择方法,包括以下六个方面:
(1)短信文本预处理,主要的预处理内容包括:分词、短信文本统一转简体表述、号码等脱敏字符串转单字符、去除停用词;
(2)基于统计阈值和平均信息增益的频繁词特征选择,其中统计阈值衡量特征词在垃圾短信中出现的高频性,信息增益体现特征词对短信的区分能力。阈值是可调参数,根据阈值选择频繁词作为特征词集,根据特征词集的平均信息增益变化情况决定是否继续调整阈值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710408048.X/2.html,转载请声明来源钻瓜专利网。