[发明专利]一种采集微博内容的方法及设备有效
申请号: | 201310476050.2 | 申请日: | 2013-10-12 |
公开(公告)号: | CN103593397B | 公开(公告)日: | 2018-10-09 |
发明(设计)人: | 冯青松 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市中伦律师事务所 11410 | 代理人: | 张思悦 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 采集 内容 方法 设备 | ||
1.一种采集微博内容的方法,包括:
采集微博用户库中预先选定的微博用户的微博内容和微博参数;
根据采集到的微博内容和微博参数,提取出与微博热点话题相关的热门关键词或热门关键词组;
根据提取到的所述热门关键词或热门关键词组,按照预先设定的采集频率采集与所述热门关键词或热门关键词组相关的微博内容;
其中,所述根据采集到的微博内容和微博参数,提取出与微博热点话题相关的热门关键词或热门关键词组步骤包括:
根据采集到的所述微博内容和微博参数,按照预先设定的微博类别对所述微博内容进行分类处理;
对各个微博类别下的微博内容进行微博热点话题处理,得到各个微博类别下与微博热点话题相关的微博内容;
对各个微博类别下的与微博热点话题相关的微博内容分别进行分词处理,提取出各个微博类别下的与微博热点话题相关的热门关键词或热门关键词组。
2.根据权利要求1所述的方法,其中,在按照预先设定的采集频率采集与所述热门关键词或热门关键词组相关的微博内容的步骤之后,所述方法还包括:
采集发布和/或转发与所述热门关键词或热门关键词组相关的微博内容的微博用户;
将采集到的微博用户更新到微博用户库中,并将采集到的微博用户的选定状态标识为选定。
3.根据权利要求1或2所述的方法,其中,所述方法还包括:
判断所述微博用户库中预先选定的微博用户是否符合预定义的条件;
如果所述预先选定的微博用户不符合预定义的条件,则将所述微博用户库中预先选定的微博用户的选定状态标识为非选定;
如果所述预先选定的微博用户符合预定义的条件,则保持所述微博用户库中预先选定的微博用户的选定状态不变。
4.根据权利要求3所述的方法,其中,所述判断所述微博用户库中预先选定的微博用户是否符合预定义的条件的步骤包括:
判断所述微博用户库中微博用户是否为恶意注册用户,如果所述预先选定的微博用户为恶意注册用户,则判断结果为所述预先选定的微博用户不符合预定义的条件,如果所述预先选定的微博用户不是恶意注册用户,则判断结果为所述预先选定的微博用户符合预定义的条件;和/或者
判断所述微博用户库中的预先选定的微博用户的活跃度是否低于预先设定的活跃度阈值,如果所述微博用户的活跃度低于预先设定的活跃度阈值,则判断结果为所述预先选定的微博用户不符合预定义的条件;如果所述微博用户的活跃度不低于预先设定的活跃度阈值,则判断结果为所述预先选定的微博用户符合预定义的条件;
其中,所述活跃度包括:微博用户发布或转发微博的频率、微博用户的连续登录时间和微博用户的当天在线时间中的任意一种或多种组合。
5.根据权利要求4所述的方法,其中,所述判断所述微博用户库中微博用户是否为恶意注册用户的步骤包括:
判断所述微博用户的用户评分值是否低于预先设定的恶意注册评分值;
如果所述微博用户的用户评分值低于预先设定的恶意注册评分值,则判断结果为所述微博用户是恶意注册用户;
如果所述微博用户的用户评分值不低于预先设定的恶意注册评分值,则判断结果为所述微博用户不是恶意注册用户。
6.根据权利要求5所述的方法,其中,所述用户评分值基于微博用户关注的用户数、微博用户的粉丝数和微博用户发布的微博数计算得到。
7.根据权利要求1或2所述的方法,其中,所述采集预先选定的微博用户的微博内容和微博参数的步骤为:
通过微博网站的应用程序编程接口采集所述微博用户库中预先选定的微博用户的微博内容和微博参数。
8.根据权利要求1或2所述的方法,其中,所述微博参数包括:微博用户的属性信息、微博的总转发次数、微博的总评论次数、微博认证用户的转发次数、和微博认证用户的评论次数中的任意一种或多种组合。
9.一种采集微博内容的设备,包括:
第一采集模块,用于采集预先选定的微博用户的微博内容和微博参数;
提取模块,用于根据采集到的微博内容和微博参数,提取出与微博热点话题相关的热门关键词或热门关键词组;
第二采集模块,用于根据提取到的所述热门关键词或热门关键词组,按照预先设定的采集频率采集与所述热门关键词或热门关键词组相关的微博内容;
所述提取模块包括:分类单元,用于根据采集到的所述微博内容和微博参数,按照预先设定的微博类别对所述微博内容进行分类处理;热点话题处理单元,用于对各个微博类别下的微博内容进行微博热点话题处理,得到各个微博类别下与微博热点话题相关的微博内容;提取单元,用于对各个微博类别下的与微博热点话题相关的微博内容分别进行分词处理,提取出各个微博类别下的与微博热点话题相关的热门关键词或热门关键词组。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310476050.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:实时时钟模块测试装置
- 下一篇:一种万向调整支承装置
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法