[发明专利]一种基于改进TFIDF的文本特征选择方法在审
申请号: | 202210195321.6 | 申请日: | 2022-03-01 |
公开(公告)号: | CN114547309A | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 黄连福 | 申请(专利权)人: | 黄连福 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F40/30 |
代理公司: | 武汉菲翔知识产权代理有限公司 42284 | 代理人: | 张红 |
地址: | 361005 福建省厦门市思*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 改进 tfidf 文本 特征 选择 方法 | ||
1.一种基于改进TFIDF的文本特征选择方法,其特征在于,包括如下改进步骤:
S1初步修改IDF公式;
在IDF公式中,并没有考虑类别信息,而且可能会受到文本中出现次数极少的词的扰动;因此,在这里结合类别信息,让特征词可以基于不同类别得出不同的IDF值,使能代表某类文本的特征词在该类中得到较高的IDF值,并让一些无关的特征词得到较低的IDF值,并结合词频信息,防止一些出现次数较低的特征词对IDF进行扰动,新的IDTF公式如下所示:
其中N代表原始数据集,|N|代表数据集的文档数量,Nj代表原始数据集中所有j类文档组成的集合,|Nj|代表数据集中j类文档的数量,tf(ti,dk)代表在文档dk中词ti的词频,代表j类文档中单词ti的平均词频,代表在非j类文档中,对于单词ti,其词频比j类文档平均词频高的文档数量,后面+1是为了避免分母为0;
如果一个特征词在某个类别文档中的平均词频很高,在其他类别文档中的词频不高,其很有可能是该类文档的关键词,其IDTF值也就越大,同时在IDTF公式计数时并不考虑该类文档,这样可以让与某一类别有较强关联的特征词拥有更高的IDTF值,如果一个特征词在某个类别的平均词频很低,或者其在所有类别中的平均词频都很高,比如“虽然”、“但是”、“如果”这类词,可能这个特征词对当前类别关联性就不强,其IDTF值也就较低,如果说IDF可以衡量一个词语在语料库中的普遍重要性,那么IDTF则是在衡量一个词语在不同类别文本中的重要性;
S2针对未考虑类间分布的改进;
如果一个特征词在不同类别内的文档中分布均匀,容易推测出这个特征词对文本分类任务能起到的作用就比较小,在特征选择评分时应给予较低的权重,如果一个特征词在某些类别中大量出现,在另一些文本中几乎不怎么出现,容易推测这个特征词对文本分类任务能起到较好的作用,应给予较高的权重;
卡法检验(chi-square test,x2test)是一种用途非常广泛的假设检验方法,是统计样本的实际观测值和假设推断值之间的偏离程度,如果卡方值越大,二者的偏差程度越大;如果卡方值越小,二者的偏差程度越小;若观测值与推断值相等,卡方值为0,表示假设完全符合,在考虑特征词在类间分布情况的时候,我们可以使用卡方检验方法,作出原假设:特征词在所有类别之间均匀分布,如果实际情况与假设一致,那么卡方值就会接近于0,如果特征词在类别之间分布越分散,那么卡方值就越大,所以卡方值可以直接用来判断词在类间的分布情况,并用做词加权因子;
令词类间卡方值为:
如果词ti在类别中均匀分布,表明其在类间没什么区分度,就越小,如果词ti在类别中分布分散,值就越大;
S3针对未考虑类内分布的改进;
类内分布与类间分布完全相反,一个词若在类内分布越均匀,说明其与该类的联系越强,应给予较高的权重,反之,若一个特征词在类内分布越分散,说明其与该类的联系较弱,应给予较低的权重;
令逆词类内卡方值为:
其中tf(ti,d)表示特征词ti在文本d中的词频,表示特征词ti在类别cj中的平均词频,如果逆词类内卡方值越大,则说明特征词在当前类内分布越均匀,其有较大概率是该类文本的关键词,如果逆词类内卡方值越小,则说明特征词在当前类内分布越分散,该特征词与当前类的关联度就可能较低,对该类文本分类的贡献就较低;
S4针对未考虑文档内分布的改进;
在单个文本中,一个特征词如果在首尾段中均有出现,其有较大的概率是该文本的主题词,应给予较大的权重,如果一个特征词只集中出现在某个段落中,其可能只是该段落的主题,与文本主题关系不大,不应给予较大的权重;
令词跨度系数(Word Span Factor,WSF)为
其中,firstPos(ti,dk)为单词ti在文本dk中出现的第一个位置,lastPos(ti,dk)为单词ti在文本dk中出现的最后一个位置,len(dk)为文本的长度,WSF可以反映词语在文本中出现的范围,通常来说,词语在文章中分布范围越广,该词越能代表文章的类型,WSF值也就越大,相反,词语在文章中的出现范围越集中,该词可能就不能很好地概括全文主旨,WSF值也就越小;
S5针对词性的改进;
首先从特征词的词性考虑,文本在经过预处理阶段后会变成一个个词语构成的列表,这些词按照词性又可以分为名词、动词、形容词、副词、连词,在大部分语言中,一篇文章的关键词往往是名词或则是动词,而形容词和副词等往往起到的是一个修饰的作用,其自身难以反映文章的内容,而连接词,语气词,量词等更像是一些功能词,本身并无意思,基于此,文本提出词性系数WCF,针对不同词性给予不同权重,WCF公式如下:
WCF针对每个词性的具体权重值是基于实验调整得到,若针对其它语言的文本数据集,也应当进行调整;
S6针对被修饰词的改进;
形容词和副词是中文文本的重要组成部分,形容词主要用来描述或修饰名词,表示人或事物的属性、性质、特征、状态、形状,如“帅气”、“美丽”、“大”、“小”词汇,副词主要用来修饰动词,形容词或副词,以表示时间、频率、范围、语气、程度,比如“极度”、“非常”等词汇,在一篇文章中,作者往往会用形容词和副词来补充感情信息,并突显被修饰词的与众不同,基于此,本文提出了修饰系数DF,其公式如下:
其中desCnt(t,dk)表示在文章dk中,词ti被修饰的次数,表示在这篇文章中,每个修饰词的价值,如果作者是一个很浮夸的人,其在文章中大量使用修饰词,那往往就很难从中抓取到重点,每个修饰词的价值就变低了,如果作者惜字如金,只在需要的时候来个点睛之笔,这样的修饰词价值就变高了,表示该词在文中的重要程度,一个词,如果被作者用反复用不同的修饰词进行描述,其是中心词的概率就直线上升,重要程度就应该增加,如果只是偶尔出现一次,其重要程度应该降低;
S7改进TF-IDTF-WI算法;
基于对传统TF-IDF算法在词分布方面的缺陷进行分析与改进,可以明确地知道,对于一个能区分某个类和其他类的特征词,其应集中出现在某些类的文本中,而不是均匀分布在全体数据集中,并且其在所属类别内的文档中分布应是接近均匀分布,此外,在该类内的以该词为主题的文档中,其应具有较大的词跨度,根据上述思量并结合词性信息和文本类别信息,提出了TF-IDTF-WI算法,TF-IDTF-WI公式如下所示:
从类别出发,特征词对于每个类别的TF-IDTF-WI值为在每个类中,根据该值对特征词进行从大到小的排序,并逐一从各类中选取TF-IDTF-WD值最大的特征词加入到新的特征词集合,即可完成特征选择工作,并能提升传统TF-IDF算法的分类准确率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于黄连福,未经黄连福许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210195321.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:多适应型下肢康复运动装置
- 下一篇:一种用于肿瘤科的双引流装置