[发明专利]一种确定微博热门话题的方法及装置在审
申请号: | 201510591206.0 | 申请日: | 2015-09-16 |
公开(公告)号: | CN105159882A | 公开(公告)日: | 2015-12-16 |
发明(设计)人: | 张玉清;周传锋;李北格 | 申请(专利权)人: | 中国地质大学(北京) |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 王卫忠;姜燕 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 确定 热门话题 方法 装置 | ||
技术领域
本发明涉及计算机应用技术领域,具体涉及一种确定微博热门话题的方法及装置。
背景技术
随着web2.0时代的到来,微博的使用人群数量逐渐庞大,状态信息更新频繁、信息传播迅速,并且微博平台媒介用户占有率相对集中,因此基于微博数据的分析研究是十分值得关注的研究方向。
微博有着广大的用户基础,舆情信息在微博平台快速的产生和传播,微博用户迅猛增长,基于微博数据的分析已经引起社会的广泛关注。
为了有效地利用微博分析社会舆情,微博数据的获取显得尤为重要。例如新浪微博上活跃着大量的用户,每天产生近1亿的微博内容。微博用户分为普通用户和认证用户,认证用户中拥有众多粉丝、人气较高、具有一定号召力和影响力的名人又被称为意见领袖。他们发布或转发的微博更容易成为热点话题,实时获取意见领袖的微博数据是进行舆情分析的重要方法之一。
目前获取意见领袖的微博数据非常方便,但是如何实时确定微博热门话题,以对当前舆情进行监管还存在一定的难度。
发明内容
有鉴于此,本发明实施例提供一种确定微博热门话题的方法及装置,以实时提取热门话题,以便对当前舆情进行监管。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
第一方面,本发明实施例提供了一种确定微博热门话题的方法,包括:
获取意见领袖的微博;
对所述微博进行分句提取有效句子,将所述有效句子用语义相近的较短的有效句子替代,以获得新微博形成新微博集合;
对所述新微博集合中的新微博的有效句子进行聚类确定微博热门话题。
进一步地,获取意见领袖的微博包括:利用定向网络爬虫获取意见领袖发表的微博,或采用关注模式获取意见领袖发表的微博。
进一步地,将所述有效句子用语义相近的较短的有效句子替代包括:
将所述微博句子集合中的有效句子进行正则匹配,将匹配相似的有效句子中较长的有效句子用较短的有效句子替代。
进一步地,将所述微博句子集合中的有效句子进行匹配包括:
将较短的有效句子中每个字的前后加入通配符形成匹配条件,判断较长的有效句子是否满足所述匹配条件。
进一步地,将所述微博句子集合中的有效句子进行匹配包括:遍历所述微博集合,对所述微博集合中所有的有效句子进行两两正则匹配。
进一步地,对所述新微博集合中的新微博的有效句子进行聚类确定微博热门话题包括:
对所述新微博集合中各新微博进行遍历,依次对所述各新微博设置编号作为微博的根,根据所述微博的根对所述各新微博中所包含的有效句子进行标号,包括若所述有效句子第一次出现,则将所述有效句子的标号设置为所述有效句子所在的新微博的根,否则将所述有效句子的标号设置为第一个出现所述有效句子的微博的根;
根据新微博的根以及各有效句子标号,确定所述新微博所属的类别,所述类别至少包括祖先微博和从属微博,其中所述祖先微博为所有的有效句子均第一次出现的新微博,所述从属微博为所包括的有效句子标号除了为所述新微博的根之外其他的有效句子标号属于同一祖先微博的根或所述祖先微博的下面的从属微博的根的新微博;
查找各从属微博的祖先微博,将祖先微博相同的新微博所对应的原微博进行合并确定微博热门话题。
进一步地,所述类别还包括噪声微博,所述噪声微博为从属于不同祖先微博的新微博;
根据新微博的根以及各有效句子标号,确定所述新微博所属的类别包括:
如果新微博中所有有效句子的标号相同,且均为所述新微博的根,则确定所述新微博为祖先微博;
如果新微博中有效句子标号除了所述新微博的根之外还有一个有效句子标号,则确定所述新微博属于从属微博,从属于根为所述有效句子标号的新微博;
如果新微博中有效句子标号中除了所述新微博的根之外还有至少两个不同的句子标号,且根为所述至少两个不同的句子标号的至少两个新微博是同一祖先微博的从属微博,则确定所述新微博为从属微博,且从属于所述同一祖先微博,否则确定所述新微博为噪声微博。
进一步地,所述方法还包括:对所述新微博集合中的新微博的有效句子进行聚类确定微博热门话题之后还包括:
对所确定的热门话题所相关的新微博进行句子频率统计,将出现频率最高的有效句子作为所述热门话题的标题。
进一步地,所述方法还包括:对所述新微博集合中的新微博的有效句子进行聚类确定微博热门话题之后还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质大学(北京),未经中国地质大学(北京)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510591206.0/2.html,转载请声明来源钻瓜专利网。