[发明专利]一种微博特征项提取方法和改进TF‑IDF归一化方法在审
申请号: | 201610969960.8 | 申请日: | 2016-10-27 |
公开(公告)号: | CN106502990A | 公开(公告)日: | 2017-03-15 |
发明(设计)人: | 严萌;朱燕飞 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 杨炳财,屈慧丽 |
地址: | 510062 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种微博特征项提取方法和改进TF‑IDF归一化方法,结合CHI方法和改进TF‑IDF归一化方法的方法来提取特征项,从而来降低空间向量的维数。由于考虑到了中文词中存在一义多词或一词多义的缘故,对传统的归一化TF‑IDF归一化方法进行了一些改进,即在计算词的权重时结合了词的语义。通过该归一化方法来提取特征项不仅可以降低建空间向量时的维度,而且还可以减少话题的重复性,但在计算权重后容易忽略一些有利于分类的低频词,故在改进TF‑IDF归一化方法的同时还结合了CHI统计方法,该方法可以发现一些有利于文本分类结果的低频词。故能从一定程度上提高话题检测的准确率和速度。 | ||
搜索关键词: | 一种 特征 提取 方法 改进 tf idf 归一化 | ||
【主权项】:
一种微博特征项提取方法,其特征在于,包括:首先获取的总闻News={D1,D2,...,Di},Di表示为所有新闻中的第i条新闻,第i条新闻中的所用词语即可以表示Di={word1,word2,...,wordn}(i∈j+z);;然后获取其中一类中的所有不同词AWm={word1word2,...,wordm},按上述公式得到每个文本中每个词的词频再计算不属于那一类的所有词的词频接着用公式来计算一个类中所有词的CHI值;用公式来计算每个词在每篇文本中所占权重即可得到每个词的权重和其中,tij是代表了第i个文本中的第j个特征项,tfij代表了特征项j出现在文本i的频率,Wij代表了特征项tij的权重,log(N/nij+0.01)为逆文档频率,N是代表文档的总数,nij是代表包含了所有tij的文本数量;再结合所述CHI值,根据公式重新给一个类的所有词赋权;最后通过公式SWWm={WW1,WW2,...,WWm}计算一个类中每个词语的权重。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610969960.8/,转载请声明来源钻瓜专利网。