[发明专利]一种基于改进TFIDF的文本特征选择方法在审
申请号: | 202210195321.6 | 申请日: | 2022-03-01 |
公开(公告)号: | CN114547309A | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 黄连福 | 申请(专利权)人: | 黄连福 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F40/30 |
代理公司: | 武汉菲翔知识产权代理有限公司 42284 | 代理人: | 张红 |
地址: | 361005 福建省厦门市思*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 改进 tfidf 文本 特征 选择 方法 | ||
本发明公开了一种基于改进TFIDF的文本特征选择方法,包括如下改进步骤:初步修改IDF公式;针对未考虑类间分布的改进;针对未考虑类内分布的改进;针对未考虑文档内分布的改进;针对词性的改进;针对被修饰词的改进;改进TF‑IDTF‑WI算法。本发明通过实验证明相比于传统的TF‑IDF方法,TF‑IDTF‑WI算法在文本分类中能取得更高的准确率,并且在其它评价指标上也表现更加出色。
技术领域
本发明涉及计算机技术及软件技术领域,尤其涉及一种基于改进TFIDF的文本特征选择方法。
背景技术
文本语料库是指以结构化的文本数据组成的大规模电子文本库,其中存放的是在日常生活工作中真实出现过的语言材料,是自然语言处理研究的基础资源;文本语料库按语言可以分为中文文本语料库、英文文本语料库、西班牙语文本语料库等;本文的研究内容都是在中文文本语料库基础之上进行,相比于英文文本语料库而言,中文文本语料库的处理更加复杂,中文词汇非常庞大,并且具有大量的成语、歇后语等,一个句子可能由很多词组成,并且词之间难以区分,比如赵元任先生所著的《施氏食狮史》中:“石室诗士施氏,嗜狮,誓食十狮”,“石室”指的是石头屋子,而不是石头和屋子两样物品;而英语文本由一个个单词和空格组成,对计算机而言操作更加容易。
文本分类是指通过计算机按照一定的分类体系对文本数据进行自动分类,一个常见的文本分类任务流程,具体步骤包括数据预处理、文本表示、特征选择、分类器的选择与训练、分类器的评估。
本文的研究内容在于特征选择阶段,这个阶段对分类的性能和结果起着关键性的作用,本文主要对文本分类的各个步骤的相关技术进行简要介绍,为后续算法的提出和实验的设计和实现打下铺垫。
TF-IDF(Term Frequency—Inverse Document Frequency)是一种常用于信息检索与文本挖掘的加权技术。TF-IDF旨在反映一个词对于语料库中的文档的重要性。TF-IDF加权技术经常被搜索引擎作为给用户查询响应的文档相关性打分和排名的核心工具,一个最简单的排名方法就是将每个用户查询的关键词的TF-IDF值相加来计算的。2015年的一项调查表明,数字图书馆中70%的基于文本的推荐系统都使用了TF-IDF技术。此外,TF-IDF也成功地应用于各种任务的停用词过滤,包括文本总结和分类,因此TF-IDF也可以完成于基于VSM模型的文本分类的特征选择任务。
在一份给定的文件中,词频TF(Term Frequency)指的是某一个给定的词语在该文件中出现的频率,之所以采用频率而不是频数,是因为文本长度往往会对词频产生较大的影响。对于某个特定的特征词ti来说,其在文件dk中的词频可以表示为:
其中ni,j为特征词ti在文件dj中的出现次数,分母为dj的长度,V为根据数据集所构造出的词典。
逆文档频率IDF(Inverse Document Frequency)是一个词语在语料库中的普遍重要性的度量,比如像的、地、得、我、你、如果、虽然这些常用词,可能会大量的出现在文章中,但是其对于文章主题的贡献微乎其微。因此就需要降低这些词的权重。定义IDF为:
其中|D|为语料库中的文件总数,为语料库中包含词语ti的文件数目,+1是为了避免某些情况下导致的分母为0。
最后TF-IDF值为TF值与IDF值相乘,这样可以避免一些高频但是无意义的词具有过高的权重,也可以提高一些出现频率低但是具有较高区分意义的词的权重。
TF-IDF(ti,dk)=TF(ti,dk)×IDF(ti)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于黄连福,未经黄连福许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210195321.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:多适应型下肢康复运动装置
- 下一篇:一种用于肿瘤科的双引流装置