[发明专利]一种字频文本分类方法在审
申请号: | 201610698064.2 | 申请日: | 2016-08-19 |
公开(公告)号: | CN106372640A | 公开(公告)日: | 2017-02-01 |
发明(设计)人: | 谭军 | 申请(专利权)人: | 中山大学 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06F17/27 |
代理公司: | 广州粤高专利商标代理有限公司44102 | 代理人: | 林丽明 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出一种字频文本分类方法,包括以下内容对输入的文本进行预处理,对于处理后的文本进行汉字分割,形成语料库,去除语料库内的停用词,形成词汇文本矩阵,采用分类器对样本进行训练,计算字频的召回率,计算方式为本发明的分类方法,具有以下特点字频的效果比词频要好很多,甚至在随机森林(RF),人工神经网络(NNET),已经组合分类器Bagging和Boosting算法中召回率都达到了100%。这证明在商品描述中,字频比词频更具有特征性。 | ||
搜索关键词: | 一种 字频 文本 分类 方法 | ||
【主权项】:
一种字频文本分类方法,其特征在于,包括以下内容:对输入的文本进行预处理,对于处理后的文本进行汉字分割,形成语料库,去除语料库内的停用词,形成词汇文本矩阵,采用分类器对词汇文本矩阵进行训练,计算字频的召回率,计算方式为:形成词汇文本矩阵的过程为:在R环境下,使用“tm”包中的TermDocumentMatrix函数形成词汇文本矩阵,词汇文本矩阵是根据向量空间模型建造的;向量空间模型是用一个向量来表示一个文本的信息,使得文本成为特征空间中的一个点,在向量空间模型中文本集合形成一个矩阵,也就是特征空间中点的集合;Wordi是向量空间模型中的特征项,Wij是特征项的权重。对于模型中的特征项权重值,过TF‑IDF权重计算法得到;TF‑IDF权重计算公式为:tfidf(tk,dj)=tf(tk,dj)·log|Tr|#Tr(tk)]]>其中tf(tk,dj)表示关键词tk在文档dj中出现的频度;|Tr|为数据全集中文档的总数,#Tr(tk)为包含关键词tk的文档总数;其中tf(tk,dj)=1+log#(tk,dj)if#(tk,dj)>00otherwise]]>#(tk,dj)表示关键词tk在文档dj中出现的次数;最后余弦归一化得到最终的权重值:Wkj=tfidf(tk,dj)Σs=1|T|tfidf(ts,dj)2.]]>
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610698064.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种流体动力转化装置
- 下一篇:一种燃气轮机涡轮的双层壁外环结构