[发明专利]一种不良文本信息过滤用特征选择方法在审

专利信息
申请号: 201810196195.X 申请日: 2018-03-09
公开(公告)号: CN108376130A 公开(公告)日: 2018-08-07
发明(设计)人: 闫茂德;赵文;柯伟;陈宇;李超飞;田野;林海 申请(专利权)人: 长安大学
主分类号: G06F17/27 分类号: G06F17/27;G06F17/30
代理公司: 西安通大专利代理有限责任公司 61200 代理人: 高博
地址: 710064 *** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 特征项 特征选择 文本信息过滤 分类特征 集合 统计量 权重 筛选 逆文档频率 不良类别 类别频率 文档频率 最终特征 数据集 语料库 构建 排序 改良
【权利要求书】:

1.一种不良文本信息过滤用特征选择方法,其特征在于,先从类别语料库中提取所有特征项,构建初始特征项集合;然后根据包含特征项tj对不良类别中任一类别Ci的χ2统计量χ2(tj,Ci)、改良后的逆文档频率IDF、逆类别频率ICF和逆不良文档频率IHDF计算得到分类特征权重值CTW值,利用分类特征权重值CTW值作为特征选择的依据,对特征项进行筛选;最后将筛选的初始特征项集合中的特征项按照CTW值的大小由高到低排序,选取a个特征项组成最终特征项集合。

2.根据权利要求1所述的一种不良文本信息过滤用特征选择方法,其特征在于,利用改良后的逆文档频率IDF值均衡特征项在包含全部类别在内的类内类间分布情况;利用逆类别频率ICF值弥补了训练文档集合的类别倾斜;利用逆不良文档频率IHDF值均衡了特征项在不良类别与正常类别之间的分布情况,则分类特征权重值CTW值计算如下:

CTW=χ2(tj,Ci)×IDF×ICF×IHDF。

3.根据权利要求1或2所述的一种不良文本信息过滤用特征选择方法,定义N为训练文档总数,Ci为不良类别中任一类别,tj为Ci类初始特征项集合中的任一特征项,A为既包含特征项tj又属于类别Ci的文档频数;B为虽然包含特征项tj但不属与类别Ci的文档频数;C为类别Ci中不包含特征项tj的文档频数;D为所有文档中既不包含特征项tj又不属于类别Ci的文档频数,则训练文档总数N=A+B+C+D。

4.根据权利要求3所述的一种不良文本信息过滤用特征选择方法,其特征在于,χ2(tj,Ci)计算如下:

5.根据权利要求3所述的一种不良文本信息过滤用特征选择方法,其特征在于,改良后的逆文档频率IDF具体计算如下:

其中,n为包含该特征项tj的文档数;m为类别Ci中包含该特征项tj的文档数;k为除类别Ci外其他各类包含该特征项tj的文档数,且n=m+k。

6.根据权利要求3所述的一种不良文本信息过滤用特征选择方法,其特征在于,逆类别频率ICF计算如下:

其中,p为训练文档集合的全部类别数量;q为包含特征项tj的类别数量。

7.根据权利要求3所述的一种不良文本信息过滤用特征选择方法,其特征在于,逆不良文档频率IHDF计算如下:

其中,N为训练文档总数;w为包含该特征项tj的文档数;v为全部不良类别中包含该特征项tj的文档数;l为除不良类别外其他正常类别各类包含该特征项tj的文档数;且w=v+l。

8.根据权利要求1所述的一种不良文本信息过滤用特征选择方法,其特征在于,设最终测试的文档总数N=TP+FP+FN+TN,分别计算得到过滤效果的正确率Pi和召回率Ri,进而得到最终过滤效果的综合评价指标用于验证,TP为被检索到与目标类别相关的文档数量;FP为被检索到但与目标类别无关的文档数量;FN为被检索到但与目标类别相关的文档数量;TN为被检索到与目标类别无关的文档数量。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长安大学,未经长安大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810196195.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top