[发明专利]一种垂直领域热门微博的提取方法及其装置有效
申请号: | 201310581666.6 | 申请日: | 2013-11-19 |
公开(公告)号: | CN103580997B | 公开(公告)日: | 2017-09-29 |
发明(设计)人: | 李威 | 申请(专利权)人: | 湖南蚁坊软件有限公司 |
主分类号: | H04L12/58 | 分类号: | H04L12/58;H04L29/06;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410000 湖南省长沙市高新开发*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 垂直 领域 热门 提取 方法 及其 装置 | ||
1.一种垂直领域热门微博的提取方法,其特征在于,其包括以下步骤:
步骤1、实时采集微博信息:通过某一门户微博指定的开放接口实时采集该门户的微博信息,其中,微博信息主要包括微博内容和转发次数;
步骤2、标签化微博信息:定义标签A={a1,a2,…,an},B={b1,b2,…,bn},…,M={m1,m2,…mn},其中a1、a2、…、an为标签A集合中包含的若干元素,b1、b2、…、bn为标签B集合中包含的若干元素,m1、m2、…mn为标签M集合中包含的若干元素;将每一微博信息与每一标签进行求交集,如果交集不为空集即微博信息中包含标签的元素,则,为该微博信息标上该标签;
步骤3、根据标签将标签化的微博信息进行分流:根据标签将标签化的微博信息分成多个垂直领域,每个垂直领域由含有相同标签的多个微博信息集合而成;被标上多个标签的微博信息将被分发到多个垂直领域;
步骤4、找出每一个垂直领域内的热门词组:采用fp-growth算法,周期性地对每一个垂直领域内的微博信息进行分析提取热门词组;
步骤5、根据热门词组和转发次数找到热门微博:搜索包括热门词组的微博信息,在这些微博信息中选取转发次数最高的那一条作为垂直领域的一条热门微博;
步骤6、过滤热门微博中含广告的微博:采用广告过滤模块去除热门微博中含广告的热门微博。
2.一种垂直领域热门微博的提取装置,其特征在于,其包括微博信息采集模块、微博信息标签化模块、微博信息分流模块、热门词组提取模块、热门微博提取模块及广告过滤模块,其中,
所述微博信息采集模块实时采集某一门户的微博信息,其中,微博信息包括微博内容和转发次数;
所述微博信息标签化模块包括自定义的标签数据库及交集求解模块,所述交集求解模块将微博信息的微博内容与标签数据库的标签进行求交,根据所得的交集包括的标签对微博信息进行标签化;
所述微博信息分流模块根据标签将标签化的微博信息分成多个垂直领域,将含有相同标签的多个微博信息集合成同一垂直领域;被标上多个标签的微博信息将被分发到多个垂直领域;
所述热门词组提取模块采用fp-growth算法提取每一垂直领域内的热门词组;
所述热门微博提取模块根据热门词组和转发次数找到相应的热门微博;
所述广告过滤模块用以滤除热门微博中的含有广告宣传词组的热门微博。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南蚁坊软件有限公司,未经湖南蚁坊软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310581666.6/1.html,转载请声明来源钻瓜专利网。