[发明专利]一种基于词共现的文本分类方法及其装置有效
申请号: | 201610709153.2 | 申请日: | 2016-08-23 |
公开(公告)号: | CN106372117B | 公开(公告)日: | 2019-06-14 |
发明(设计)人: | 李科;谈佳丽;李扬帆;杨家富 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 成都顶峰专利事务所(普通合伙) 51224 | 代理人: | 李崧岩 |
地址: | 610000 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及计算机技术领域,公开了一种基于词共现的文本分类方法及其装置。所述文本分类方法及其装置,不但应用主题词表和修饰词表两种词表的匹配来进行综合性分类考量,还从宏观词共现和微观词共现两种维度来分析文本词汇与主题词表的共现相关度,由此不但可简化算法,提高分类速度和效率,还可以提高文本分类的准确性,满足文本分类的高精确度要求,便于实际推广和应用。 | ||
搜索关键词: | 一种 基于 词共现 文本 分类 方法 及其 装置 | ||
【主权项】:
1.一种基于词共现的文本分类方法,其特征在于,包括步骤如下:S101.获取主题词表和修饰词表,所述主题词表中包含有K个类别的分类主题词集,所述修饰词表包含有K个类别的分类修饰词集,其中,K为不小于2的自然数,所述主题词表中的类别与所述修饰词表中的类别一一对应;S102.对待分类文本d进行预处理,获取文本特征词集,其中,所述待分类文本d包含有若干篇子集;S103.针对各个类别,一方面将对应的分类主题词集与所述文本特征词集进行匹配,进而利用TF‑IDF统计方法计算所述待分类文本d与分类主题词集的第一共现相关度Sim1(QkT,d),具体公式如下:
式中,ci为文本特征词集D中第i个文本特征词,tk,j为分类主题词集QkT中第j个主题词,I为文本特征词集D中文本特征词总数,J为分类主题词集QkT中主题词总数,tf(ci,tk,j)为在含有主题词tk,j的子集中文本特征词ci的词频,itf(ci,tk,j)为文本特征词ci相对于主题词tk,j的逆向词频,同时利用构建词共现图时的词对共现度计算方法计算待分类文本d与分类主题词集的第二共现相关度Sim2(QkT,d),另一方面将对应的分类修饰词集与所述文本特征词集进行匹配,利用语言模型计算所述待分类文本d与分类修饰词集的第三共现相关度Sim3(QkF,d),最后根据如下线性公式得到所述待分类文本d与该类别对应的综合共现相关度Sim(Qk,d):Sim(Qk,d)=b*(a*Sim1(QkT,d)+(1‑a)*Sim2(QkT,d))+(1‑b)*Sim3(QkF,d)式中,Qk为第k个类别,QkT为第k个类别的分类主题词集,QkF为第k个类别的分类修饰词集,k为介于1~K之间的自然数,a和b分别为介于0~1之间的权重系数;S104.确定所有综合共现相关度的最高值,并查找到与所述最高值对应的类别,将所述待分类文本分类至该类别。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610709153.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种吸湿床单的生产工艺
- 下一篇:一种净化汽车空压机气体的熔喷无纺布