[发明专利]一种不良文本信息过滤用特征选择方法在审
申请号: | 201810196195.X | 申请日: | 2018-03-09 |
公开(公告)号: | CN108376130A | 公开(公告)日: | 2018-08-07 |
发明(设计)人: | 闫茂德;赵文;柯伟;陈宇;李超飞;田野;林海 | 申请(专利权)人: | 长安大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 高博 |
地址: | 710064 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征项 特征选择 文本信息过滤 分类特征 集合 统计量 权重 筛选 逆文档频率 不良类别 类别频率 文档频率 最终特征 数据集 语料库 构建 排序 改良 | ||
1.一种不良文本信息过滤用特征选择方法,其特征在于,先从类别语料库中提取所有特征项,构建初始特征项集合;然后根据包含特征项tj对不良类别中任一类别Ci的χ2统计量χ2(tj,Ci)、改良后的逆文档频率IDF、逆类别频率ICF和逆不良文档频率IHDF计算得到分类特征权重值CTW值,利用分类特征权重值CTW值作为特征选择的依据,对特征项进行筛选;最后将筛选的初始特征项集合中的特征项按照CTW值的大小由高到低排序,选取a个特征项组成最终特征项集合。
2.根据权利要求1所述的一种不良文本信息过滤用特征选择方法,其特征在于,利用改良后的逆文档频率IDF值均衡特征项在包含全部类别在内的类内类间分布情况;利用逆类别频率ICF值弥补了训练文档集合的类别倾斜;利用逆不良文档频率IHDF值均衡了特征项在不良类别与正常类别之间的分布情况,则分类特征权重值CTW值计算如下:
CTW=χ2(tj,Ci)×IDF×ICF×IHDF。
3.根据权利要求1或2所述的一种不良文本信息过滤用特征选择方法,定义N为训练文档总数,Ci为不良类别中任一类别,tj为Ci类初始特征项集合中的任一特征项,A为既包含特征项tj又属于类别Ci的文档频数;B为虽然包含特征项tj但不属与类别Ci的文档频数;C为类别Ci中不包含特征项tj的文档频数;D为所有文档中既不包含特征项tj又不属于类别Ci的文档频数,则训练文档总数N=A+B+C+D。
4.根据权利要求3所述的一种不良文本信息过滤用特征选择方法,其特征在于,χ2(tj,Ci)计算如下:
5.根据权利要求3所述的一种不良文本信息过滤用特征选择方法,其特征在于,改良后的逆文档频率IDF具体计算如下:
其中,n为包含该特征项tj的文档数;m为类别Ci中包含该特征项tj的文档数;k为除类别Ci外其他各类包含该特征项tj的文档数,且n=m+k。
6.根据权利要求3所述的一种不良文本信息过滤用特征选择方法,其特征在于,逆类别频率ICF计算如下:
其中,p为训练文档集合的全部类别数量;q为包含特征项tj的类别数量。
7.根据权利要求3所述的一种不良文本信息过滤用特征选择方法,其特征在于,逆不良文档频率IHDF计算如下:
其中,N为训练文档总数;w为包含该特征项tj的文档数;v为全部不良类别中包含该特征项tj的文档数;l为除不良类别外其他正常类别各类包含该特征项tj的文档数;且w=v+l。
8.根据权利要求1所述的一种不良文本信息过滤用特征选择方法,其特征在于,设最终测试的文档总数N=TP+FP+FN+TN,分别计算得到过滤效果的正确率Pi和召回率Ri,进而得到最终过滤效果的综合评价指标用于验证,TP为被检索到与目标类别相关的文档数量;FP为被检索到但与目标类别无关的文档数量;FN为被检索到但与目标类别相关的文档数量;TN为被检索到与目标类别无关的文档数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长安大学,未经长安大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810196195.X/1.html,转载请声明来源钻瓜专利网。