[发明专利]一种数据处理方法及服务器有效
申请号: | 201611196380.6 | 申请日: | 2016-12-22 |
公开(公告)号: | CN106649720B | 公开(公告)日: | 2020-10-13 |
发明(设计)人: | 窦志成;亚振钊 | 申请(专利权)人: | 北京一览群智数据科技有限责任公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/25;G06F16/2457 |
代理公司: | 北京中创阳光知识产权代理有限责任公司 11003 | 代理人: | 尹振启 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 服务器 | ||
本发明公开了一种数据处理方法及服务器,包括:从数据库中分别读取第一类型数据和第二类型数据;将所述第一类型数据插入第一队列中,将所述第二类型数据插入第二队列中;对所述第一队列进行下载处理时,从所述第一队列中获取第一类型数据,依据所述第一类型数据下载得到第二类型数据;将所述下载得到的第二类型数据存入所述数据库;对所述第二队列进行抽取处理时,从所述第二队列中获取第二类型数据,对所述第二类型数据进行解析,抽取得到对象数据;将所述对象存入所述数据库。
技术领域
本发明涉及数据处理技术,尤其涉及一种数据处理方法及服务器。
背景技术
通过页面链接下载到页面数据后,还需要对页面数据进行抽取,得到最终的目标数据。这个过程中,需要调用下载功能和数据抽取功能,然而,目前的下载功能和数据抽取功能具有强耦合关系,即:下载功能执行后直接调用数据抽取功能进行数据抽取。这种方式下,要对不同的页面结构开发不同的数据抽取功能;或者,通过通用的数据抽取功能进行数据抽取,但是不能处理较复杂的页面结构。
可见,现有的下载功能和数据抽取功能耦合度较高,不易分布式部署网络数据;对复杂结构的页面数据抽取不够准确。
发明内容
为解决上述技术问题,本发明实施例提供了一种数据处理方法及服务器。
本发明实施例提供的数据处理方法,包括:
从数据库中分别读取第一类型数据和第二类型数据;
将所述第一类型数据插入第一队列中,将所述第二类型数据插入第二队列中;
对所述第一队列进行下载处理时,从所述第一队列中获取第一类型数据,依据所述第一类型数据下载得到第二类型数据;将所述下载得到的第二类型数据存入所述数据库;
对所述第二队列进行抽取处理时,从所述第二队列中获取第二类型数据,对所述第二类型数据进行解析,抽取得到对象数据;将所述对象存入所述数据库。
本发明实施例中,所述从数据库中读取第一类型数据,为:从数据库中读取链接类型数据。
本发明实施例中,所述对所述第二类型数据进行解析,抽取得到对象数据,包括:
对所述第二类型数据进行解析,抽取得到结构化数据和/或链接类型数据,其中,所述链接类型数据是指所述第一类型数据。
本发明实施例中,所述数据库对所述第一类型数据和所述第二类型数据进行分区域存储,其中,所述第一类型数据存储在数据库中的第一存储区域,所述第二类型数据存储在数据库中的第二存储区域;
所述从数据库中分别读取第一类型数据和第二类型数据,包括:
从所述第一存储区域中读取第一类型数据,从所述第二存储区域读取第二类型数据。
本发明实施例中,所述方法还包括:
循环执行所述下载处理和所述抽取处理,直至所述数据库中的第一类型数据和第二类型数据被处理完成为止。
本发明实施例提供的服务器,包括:
调度模块,用于从数据库中分别读取第一类型数据和第二类型数据;将所述第一类型数据插入第一队列中,将所述第二类型数据插入第二队列中;
队列模块,用于通过第一队列存储第一类型数据,通过第二队列存储第二类型数据;
下载模块,用于对所述第一队列进行下载处理时,从所述第一队列中获取第一类型数据,依据所述第一类型数据下载得到第二类型数据;将所述下载得到的第二类型数据存入所述数据库;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京一览群智数据科技有限责任公司,未经北京一览群智数据科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611196380.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种页面的下载方法及客户端
- 下一篇:一种文件排重方法和装置