[发明专利]一种面向词和组合词的垃圾短信文本特征选择方法有效
申请号: | 201710408048.X | 申请日: | 2017-06-02 |
公开(公告)号: | CN107193804B | 公开(公告)日: | 2019-03-29 |
发明(设计)人: | 毛莺池;王绎超;齐海;贾必聪;平萍;李晓芳;徐淑芳 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 李玉平 |
地址: | 211100 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种面向词和组合词的垃圾短信文本特征选择方法,所述方法包括以下步骤:(1)基于统计阈值和平均信息增益的频繁词特征选择;(2)基于N‑Gram算法的双字词和组合词特征选择;(3)非修饰性实词组合成元组特征,遍历所有的垃圾短信文本寻找名词+动词\形容词组合,根据一定的标准对所得元组特征进行筛选;(4)基于累积信息增益的特征选择,选择累积信息增益达到原始特征词信息增益总和的95%的特征词,进而构建特征词向量;(5)基于垃圾短信分类评价指标的特征工程优化,加入信息量特征、基于改进几率比的特征选择、基于随机森林和逻辑回归的特征选择。 | ||
搜索关键词: | 特征选择 垃圾短信 组合词 文本特征选择 累积信息 特征词 元组 工程优化 逻辑回归 评价指标 随机森林 信息增益 原始特征 词信息 修饰性 遍历 构建 实词 算法 向量 信息量 文本 筛选 分类 改进 统计 | ||
【主权项】:
1.一种面向词和组合词的垃圾短信文本特征选择方法,其特征在于,包括以下步骤:(0)短信文本预处理,文本预处理主要包括的内容有:文本分词、词性标注、特殊符号的处理、去除停用词;(1)基于统计阈值和平均信息增益的频繁词特征选择,其中统计阈值衡量特征词在垃圾短信中出现的高频性,信息增益体现特征词对短信的区分能力;阈值是可调参数,根据阈值选择频繁词作为特征词集,根据特征词集的平均信息增益变化情况决定是否继续调整阈值;(2)基于N‑Gram算法的双字词和组合词特征选择,基于N‑Gram算法产生文字片断序列,根据步骤(2)得到的最优统计阈值过滤掉非频繁序列,将剩余的序列构建关联矩阵,矩阵元素为对应行列组合序列在垃圾短信文本中的出现频度,根据一定的标准筛选组合文字序列;(3)非修饰性实词组合成元组特征,遍历所有的垃圾短信文本寻找名词+动词\形容词组合,根据一定的标准对所得元组特征进行筛选;(4)基于累积信息增益的特征选择,对由以上步骤得到的词和组合词特征的合并结果,选择累积信息增益达到原始特征词信息增益总和的95%的特征词,进而构建特征词向量;(5)基于垃圾短信分类评价指标的特征工程优化,主要包括加入信息量特征、基于改进几率比的特征选择、基于随机森林和逻辑回归的特征选择;所述步骤(1)的具体步骤为:(1.1)初始化阈值为150;(1.2)扫面垃圾短信文本分词结果集,统计每条短信中每个词在垃圾短信文本中出现的次数,删掉那些次数小于当前阈值的词语,得到频繁词作为当前特征词集;(1.3)计算当前特征词集中特征词的平均信息增益;(1.4)以步长50增大阈值,重复(1.2)和(1.3),直到平均信息增益增长趋缓或者下降甚至为负为止;所述步骤(2)的具体步骤为:(2.1)在原始垃圾短信文本上运行4‑Gram算法,产生所有长度为2的文字片断序列;(2.2)预过滤,统计所有文字片断序列的频度,根据频度阈值400删除频度小于该阈值的文字片断序列;(2.3)将剩余的文字片断序列构建关联矩阵,矩阵中每个元素是对应行列组合文字序列的频度;(2.4)根据关联矩阵中元素的值筛选组合文字序列,如果大于0.6×max(countOfGramrow,countOfGramcol),其中countOfGramrow和countOfGramcol分别为行列文字片断序列的频度,则保留该组合文字序列;(2.5)最后,删除参与合并的文字片断序列;通过合并双字特征词所产生的组合词特征很好描述了垃圾短信所特有的信息,最终构建的特征词集的平均信息增益相对于组合之前明显提高,可见基于该方法的特征选择能够在一定程度上提高特征对垃圾短信的区分能力;所述内容(3)非修饰性实词组合成元组特征,遍历所有的垃圾短信文本寻找名词+动词\形容词组合,根据一定的标准对所得元组特征进行筛选,具体为:在使用Ansj进行分词时,保留了词性标注,遍历所有的垃圾短信文本寻找满足名词+动词\形容词的元组特征,根据0.6×max(名词,动词或者形容词)的阈值进行筛选;所述步骤(3)的具体内容为:在使用Ansj进行分词时,保留了词性标注,遍历所有的垃圾短信文本寻找满足名词+动词\形容词的元组特征,根据0.6×max(名词,动词或者形容词)的阈值进行筛选;所述步骤(4)的具体步骤为:(4.1)计算所有特征的信息增益g(D,Ai),i=1,2,3,…m,共m个特征,D为训练集,Ai为第i个特征词,是否都对垃圾短信分类有贡献取决于每个特征词各自的信息增益,如果某个特征的信息增益为负,则删除该特征,并且不参与累加求和,否则累加到信息增益和sumOfIG中;(4.2)将剩余特征按照信息增益倒序排列,从大到小累加当前特征的信息增益直至和达到0.95×sumOfIG为止;(4.3)选取参与累加的特征为最终的特征选择结果;所述步骤(5)的具体步骤为:(5.1)提出面向垃圾短信分类的评价指标,包括准确率accuracy、正确率
召回率
和
其中TP为真实类别为1(垃圾短信)并且预测为1的样本数目,FP为真实类别为0而预测为1的样本数目,FN为真实类别为1而预测为0的样本数目;(5.2)基于改进几率比做特征选择,几率比计算公式为:![]()
其中,pos表示正样本,如垃圾短信,neg表示负样本,如正常短信,tk为特征词,log为以2为底的对数,改进几率比在计算概率时分子加1,即:
考察特征词的绝对几率比,通过对绝对几率比求和,然后选择特征并累积它们的绝对几率比和直到达到原始总和的95%,使用增量式学习算法online‑LR作分类,分析各项指标的变化情况,验证基于改进几率比进行特征选择的有效性;(5.3)基于随机森林和逻辑回归做特征选择,分别基于随机森林和逻辑回归做特征选择,使用增量式学习算法online‑LR作分类,分析比较各项指标,决定采用何种特征选择方法,基于随机森林的特征选择算法,该算法的基本思想是:把随机森林的分类准确率作为特征可分性的判断依据,基于随机森林分类模型中特征重要性值对特征进行降序排列,每次删除特征重要性最小的特征,逐次迭代,直到分类准确率不再提高为止;在计算分类准确率时采用N折交叉验证,即随机地把数据平均分成N等份,每个数据子集互不相交,把其中N‑1份作为训练集,剩余一份作为测试集,计算N个测试集的平均分类准确率,如果平均分类准确率下降或者提高小于一定的阈值,就停止迭代;LR在训练过程中对特征系数的求解本身就是一种对特征的选择过程,即只有对目标变量的贡献率达到一定程度的特征才会对回归模型具有较大的影响,对目标变量贡献很小或者没有贡献的特征直接删除;对online‑LR模型训练所得到的当前最优特征权重系数进行分析,特征权重和重要性分布的非常相似,也是在0附近呈现带状分布,主要集中在区间[0,1]中,几乎相同的特征具有较大的绝对权重和重要性;对绝对权重降序排列,选择前若干个非特殊符号特征词及其权值列表;排名前若干个的权重系数全部为正值,针对的应该是一类短信区分性较大,根据词语语义分析,推断为垃圾短信。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710408048.X/,转载请声明来源钻瓜专利网。