[发明专利]基于转发关系的微博聚类方法有效
申请号: | 201510325890.8 | 申请日: | 2015-06-12 |
公开(公告)号: | CN105159905B | 公开(公告)日: | 2019-08-30 |
发明(设计)人: | 成卫青;束珏;邓聪;黄卫东 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 汪旭东 |
地址: | 210023 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了基于转发关系的微博聚类方法,该方法针对微博文本特征稀疏造成的微博文本聚类效果不佳的问题,提出一种基于微博转发关系的微博文本聚类方法。该方法根据微博之间存在的转发关系以及转发文本之间的主题相似性,构建了微博转发关系有向图。该图将转发关系作为单向边,使用微博作为节点构成图,将相互连通的部分视作一个小簇,称之为转发关系簇,在这个小簇中所有微博有同一个最初的转发源。本发明方法将转发关系簇作为聚类的初始对象,采用基于最大最小距离和SSE的自适应聚类算法进行微博文本聚类,提高了文本特征稀疏的微博文本的聚类准确率。 | ||
搜索关键词: | 基于 转发 关系 微博聚类 方法 | ||
【主权项】:
1.一种基于转发关系的微博聚类方法,其特征在于,所述方法包含如下步骤:步骤1:提取微博文本中的hashtag信息;步骤2:使用ICTCLAS分词系统对微博文本和标签进行分词,并去除非实词和停用词;步骤3:基于特征权重计算方法,计算每个特征词在每条微博中的权重;步骤4:将微博作为结点,转发关系作为单向边,基于微博的转发关系,构造转发关系矩阵,构造转发关系有向图;步骤5:基于转发关系构造聚类的初始簇,包括:步骤5.1:输入微博之间使用转发关系构成的图,所有微博节点的集合S;步骤5.2:对于每个入度为0的微博节点,以其为起点建立一个簇并加入集合C中;步骤5.3:对于C中的每一个簇的起始节点node使用广度优先遍历BFS并将遍历到的所有节点加入对应node的簇中;步骤5.4:输出具有转发关系的微博形成的小簇的集合C;步骤6:基于初始簇,使用基于最大最小距离和SSE的自适应聚类算法,并使用余弦距离度量文本间的相似度,进行聚类;步骤7:输出聚类的结果;所述步骤3中的特征权重weighij定义为:weighij=ht_weighij×wij (1)其中ht_weighij表示一个特征词的词标签权重,wij表示特征词在微博dj中的基于词频‑反文档频率的权重;ht_weighij定义为:
式(2)中,第一个式子表示的是特征词wi在微博dj的hashtag中时wi的词标签权重,第二个表示微博dj的hashtag中不存在wi时的词标签权重;htfij表示wi在hashtag中的相对词频,hN表示包含hashtag的微博数量,hni表示hashtag中包含wi的微博数量,常数λ是在大量的实验后根据经验确定的;wij定义为:
式(3)中,tfij表示特征词wi在微博dj中的相对词频,
其中fj(wi)表示词wi在微博dj中出现的次数,n(dj)表示微博dj包含的特征词的个数;idfi表示特征词wi的逆文档频率,
其中ni为包含特征词wi的微博数量,N为微博总数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510325890.8/,转载请声明来源钻瓜专利网。
- 上一篇:信息展示方法及装置
- 下一篇:一种构建多语言网站实时翻译的方法