[发明专利]一种面向词和组合词的垃圾短信文本特征选择方法有效

专利信息
申请号: 201710408048.X 申请日: 2017-06-02
公开(公告)号: CN107193804B 公开(公告)日: 2019-03-29
发明(设计)人: 毛莺池;王绎超;齐海;贾必聪;平萍;李晓芳;徐淑芳 申请(专利权)人: 河海大学
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 南京苏高专利商标事务所(普通合伙) 32204 代理人: 李玉平
地址: 211100 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 特征选择 垃圾短信 组合词 文本特征选择 累积信息 特征词 元组 工程优化 逻辑回归 评价指标 随机森林 信息增益 原始特征 词信息 修饰性 遍历 构建 实词 算法 向量 信息量 文本 筛选 分类 改进 统计
【说明书】:

发明公开了一种面向词和组合词的垃圾短信文本特征选择方法,所述方法包括以下步骤:(1)基于统计阈值和平均信息增益的频繁词特征选择;(2)基于N‑Gram算法的双字词和组合词特征选择;(3)非修饰性实词组合成元组特征,遍历所有的垃圾短信文本寻找名词+动词\形容词组合,根据一定的标准对所得元组特征进行筛选;(4)基于累积信息增益的特征选择,选择累积信息增益达到原始特征词信息增益总和的95%的特征词,进而构建特征词向量;(5)基于垃圾短信分类评价指标的特征工程优化,加入信息量特征、基于改进几率比的特征选择、基于随机森林和逻辑回归的特征选择。

技术领域

本发明涉及一种特征选择方法,具体是一种面向词和组合词的垃圾短信文本特征选择方法,属于基于文本内容的垃圾短信识别技术领域。

背景技术

常用的文本表示模型主要有两个特点,分别为高维度和高稀疏性。如果直接使用文本表示模型将原始文本数据转换成结构化数据,不仅会增加分类器的学习和预测的计算量,降低分类模型的训练和测试效率,而且会导致分类模型过拟合,模型方差较大,泛化能力较差,对测试样本的预测准确率不高。因此,研究人员越来越关注在不降低预测准确率的前提下降低特征维度,从而提高分类模型预测性能的研究。常用特征降维方法主要有两种:一种是特征选择,另一种是特征提取。特征选择方法是从原始的特征集中选取一定数目的子集,而特征提取是对原始特征集中的特征进行组合和变换。

文档频率是一种简单而又高效的特征选择方法。Yang和Pedersen经过研究发现,文档频率能够在不降低分类器分类准确率的情况下,将文本表示模型的维度降低到到原来的十分之一,进一步,即使维度降低到原来的百分之一,分类器的分类准确率也不会降低很多。

除了文档频率之外,还有许多基于信息论或统计学的特征选择方法。最为常用的主要有:信息增益(Information Gain)、卡方检验(CHI-square)、互信息(MutualInformation)、几率比(Odds Ratio)、基于模糊度量的特征选择(Ambiguity Measure,AM)、改进的基尼指数(Improved Gini index)、基于泊松分布的度量(Measure using Poissondistribution)、基于二项假设检验的特征选择(Bi-Test)等。

文本特征选择与扩展是研究和建立分类模型的前提,精简的、有区分性的特征有助于提高分类算法的性能,是分类算法性能上限的决定性因素。在文本分类中,统计阈值、信息增益和几率比是常用的特征选择方法。简单的基于统计阈值的方法选择的特征不具有区分性;由于中文文本的复杂性,简单的基于分词结果选择特征可能并不可靠;组合词特征往往能更准确地描述垃圾短信所特有的信息;短信文本长度具有一定的区分性;传统的基于几率比的方法没有考虑某种类别下特征词的0概率现象所带来的几率比不可计算问题;基于统计阈值、信息增益和几率比的方法在阈值设定上比较困难。本发明针对这些问题提出解决方法和改进,并提出基于RF和LR的特征选择算法。

发明内容

发明目的:短信文本预处理是选择短信文本特征项的基础,预处理结果的好坏将直接影响特征选择与扩展的有效性和准确性,本发明针对现有的垃圾短信分类问题中短信文本预处理的不足,使用一种较为完善的预处理方法。

技术方案:一种面向词和组合词的垃圾短信文本特征选择方法,包括以下六个方面:

(1)短信文本预处理,主要的预处理内容包括:分词、短信文本统一转简体表述、号码等脱敏字符串转单字符、去除停用词;

(2)基于统计阈值和平均信息增益的频繁词特征选择,其中统计阈值衡量特征词在垃圾短信中出现的高频性,信息增益体现特征词对短信的区分能力。阈值是可调参数,根据阈值选择频繁词作为特征词集,根据特征词集的平均信息增益变化情况决定是否继续调整阈值;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710408048.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top