[发明专利]基于事件的微博采集系统及方法在审

申请号：	201410161456.6	申请日：	2014-04-22
公开（公告）号：	CN103927367A	公开（公告）日：	2014-07-16
发明（设计）人：	李翔;裘瑛;黄豫蕾;王佳凯;陈继国;林祥;陈璐艺;冯皪魏	申请（专利权）人：	上海数据分析与处理技术研究所;上海交通大学;上海鹏越惊虹信息技术发展有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	上海交达专利事务所 31201	代理人：	王锡麟;王毓理
地址：	201112 上海市***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于事件博采系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于事件的微博采集系统，其特征在于，包括：URL构造模块、JSSH客户端模块、浏览器采集模块、HTML解析模块，其中：URL构造模块与JSSH客户端模块相连接并传输采集的URL信息，JSSH客户端模块与浏览器采集模块相连接并传输JSSH指令，浏览器采集模块与HTML解析模块相连接并传输HTML文本信息。

2.一种基于权利要求1所述系统的微博采集方法，其特征在于，包括以下步骤：

第一步，通过JSSH客户端传递浏览器指令，连接到微博登录页面进行登录动作以模拟浏览器自动登录过程；

第二步，解析页面上的URL链接并对URL链接进行匹配：根据策略词构造URL链接，并向浏览器传输访问URL的指令，当浏览器打开指令中所含URL链接的网页后，将该网页上的HTML内容转储成HTML文件

第三步，将第二步获取到HTML文件中的链接逐条与规则进行匹配，进一步打开浏览器链接至匹配规则的链接的网页，并获取该网页的源代码；

第四步，对第三步采集得到的网页源代码进行解析，生成结构化数据并存入不同的数据仓库，实现微博信息的结构化录入。

3.根据权利要求2所述的方法，其特征是，所述的规则是指：对于微博采集信息录入有效且包含微博内容的页面的共同特征规则。

4.根据权利要求2所述的方法，其特征是，所述的匹配是指：当链接符合规则掩码时认为匹配，该掩码具体为：当前微博搜索结果中页面翻页链接所对应的URL地址，将URL中页码参数的赋值更改为*号的通配表示。

5.根据权利要求4所述的方法，其特征是，所述的掩码为：http://s.weibo.com/weibo/”＋当前策略中文URL转码”＋“&”＋参数“b＝1”＋“page＝＊，＊为整数。

6.根据权利要求2所述的方法，其特征是，所述的网页源代码的获取方式操作为：利用浏览器接口中的HTML函数，将浏览器解析完JavaScript的页面HTML输出到指定文件。

7.根据权利要求2所述的方法，其特征是，第四步中，所述的解析是指：从HTML中提取数据库对应字段的所需要的内容；

所述的结构化数据包括：微博作者ID、作者昵称、微博内容、微博内容中的缩略图URL、微博内容中的原图URL、微博发布时间、微博发布客户端。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海数据分析与处理技术研究所;上海交通大学;上海鹏越惊虹信息技术发展有限公司，未经上海数据分析与处理技术研究所;上海交通大学;上海鹏越惊虹信息技术发展有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201410161456.6/1.html，转载请声明来源钻瓜专利网。

上一篇：图像检索系统及其相关方法和装置
下一篇：一种根据图片自动播放歌曲的方法及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于事件的微博采集系统及方法在审

专利文献下载