[发明专利]IG TF-IDF文本特征向量生成及文本分类方法有效

专利信息
申请号: 201811147525.2 申请日: 2018-09-29
公开(公告)号: CN109271517B 公开(公告)日: 2021-12-31
发明(设计)人: 朱志良;梁洁;李德洋;刘国奇;于海 申请(专利权)人: 东北大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/279
代理公司: 沈阳东大知识产权代理有限公司 21109 代理人: 李运萍
地址: 110819 辽宁*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: ig tf idf 文本 特征向量 生成 分类 方法
【权利要求书】:

1.一种IG TF-IDF文本特征向量生成及文本分类方法,其特征在于,包括以下步骤:

步骤1:生成文本特征向量:

输入文本集,每个文本集包括若干文本,若干文本按照其文本类别组成若干数据集;基于IG TF-IDF方法,调节选项参数,生成每个文本的特征向量F(Dj);所述IG TF-IDF为信息增益词频-反文档频率,即Information Gain,Term Frequency-Inverse DocumentFrequency;

步骤2:训练分类器:

步骤2.1:将文本集中的特征向量F(Dj)随机分成5等份,选取其中的4份数据组成训练集,剩下的1份作为测试集;

步骤2.2:将训练集输入分类器进行训练,得到训练后的分类器;

步骤3:评估分类性能:

利用训练后的分类器对测试集中的文本进行分类,并对测试集的分类结果进行评估,得到分类性能指标;根据分类性能指标,可以调节步骤1中的选项参数,直至用户满意为止;

步骤4:对目标文本集进行分类:

使用训练后的分类器对目标文本集进行分类,得到分类结果;所述目标文本集由用户选定;

所述步骤1具体包括:

步骤1.1:文本预处理;

对文本集中各个文本类型的编码进行统一,导入文本集中所有文本,对这些文本进行去燥和分词处理;

所述去燥包括标点符号、数字、停用词和其他无意义字符;

所述分词为使用NLPIR分词器对各个文本进行分词处理,提取出词条;

步骤1.2:统计文本特征;

由提取出的词条构建初始词汇表;

统计文本集中文本总数目;

统计各个词条的文本频率,即包含该词条的文本在文本总数目中的占比;

统计各个文本类别的文本数目;

统计各个词条的各个类别文本频率,即在任意一个文本类别中,包含该词条的文本在该文本类别的文本数目中的占比;

统计各个文本的各个词频,即该文本中每个词条的出现频次;

步骤1.3:去除低频词:

计算所有词条的文本频率DF,对初始词汇表中的所有词条进行初次评估,选择保留一些文本频率高于设定的最小文本频率,形成第二词汇表;

各个词条的文本频率df(Ti,C)计算方法为:

其中,count(Ti,C)是指在文本集C中,包含词条Ti的文本数量;NC代表文本集合C中包含的文本总数目;

取文本频率df(Ti,C)高于设定的最小文本频率min_df的词条,形成第二词汇表;

min_df=1e-3;

步骤1.4:词条权重计算:

用IG TF-IDF算法计算每个词条在文本中的权重,根据词条个数指标对词汇表进行过滤,选取每篇文本的前k个词条组合成为第三词汇表,并生成文本特征向量,具体实现步骤如下:

计算词条在总的数据集条件下对该文本的贡献度,即权值wC(Ti,Dj),利用如下公式:

wC(Ti,Dj)=tf*idf(Ti,C)

C代表文本集,由各文本类别的数据集Cm组成,即C={C1,C2,…,CM};其中反文本频率idf(Ti,C),其计算方法为:

这里,count(Ti,C)是指在文本集C中,包含词条Ti的文档数量;NC代表文本集C中包含的文档总数目;log是对数函数;

计算词条在各文本类别的数据集条件下对该文档的贡献度利用如下公式:

其中类别反文档频率idf(Ti,Cm),利用如下公式:

其中,count(Ti,Cm)是指在第m类数据集Cm中,包含词条Ti的文档数量;代表第m类数据集Cm中包含的文档总数目;

按如下公式计算词条的权重值:

其中pm是指第m类数据集Cm中的文档数目在总数据集C的文档数目的占比;

根据词条的权重值按从大到小的顺序排序,k由每篇文档的选前k个词条组合成为新的词汇表;

根据第三词汇表及词条在对应文档中的权重值表示文档Dj的特征向量如下:

F(Dj)=[w(T1,Dj),w(T2,Dj),…,w(Tn,Dj)]。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811147525.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top