[发明专利]HTML网页数据采集方法、装置和计算机可读存储介质在审

申请号：	201711094091.X	申请日：	2017-11-08
公开（公告）号：	CN107784113A	公开（公告）日：	2018-03-09
发明（设计）人：	张帅	申请（专利权）人：	深圳市科盾科技有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京超凡志成知识产权代理事务所(普通合伙)11371	代理人：	逯恒
地址：	518000 广东省深圳市福田区益***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	html 网页数据采集方法装置计算机可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及数据采集的技术领域，具体而言，涉及一种HTML网页数据采集方法、装置和计算机可读存储介质。

背景技术

互联网(英语：Internet)，又称网际网络，或音译因特网(Internet)、英特网，互联网始于1969年美国的阿帕网。是网络与网络之间所串连成的庞大网络，这些网络以一组通用的协议相连，形成逻辑上的单一巨大国际网络。通常internet泛指互联网，而Internet则特指因特网。这种将计算机网络互相联接在一起的方法可称作“网络互联”，在这基础上发展出覆盖全世界的全球性互联网络称互联网，即是互相连接一起的网络结构。互联网并不等同万维网，万维网只是一建基于超文本相互链接而成的全球性系统，且是互联网所能提供的服务其中之一。

随着互联网的普及，万维网已经成为巨大的数据载体，如何有效的利用这些数据成为了巨大的挑战。传统的搜索引擎比如谷歌浏览器是人们访问万维网的入口，但此类的搜索引擎也存在着一定的局限性，比如不同领域的人们有不同的检索需求，而通过传统浏览器搜索出的数据包含了大量人们不需要的信息。通用搜索引擎的目标是尽可能大的网络覆盖率，有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。通用搜索引擎大多提供基于关键字的检索，难以支持根据语义信息提出的查询。

总之，现有技术中的数据采集方法为通过搜索引擎对该引擎所覆盖的所有数据进行抓取，并且需要通过在大量数据中不断进入不同层级的目录、板块或模块才能最终有可能找到目标数据，无法控制抓取深度、垃圾信息多，方法繁琐，费时费力，效率低。

发明内容

有鉴于此，本发明提供一种HTML网页数据采集方法、装置和计算机可读存储介质，旨在于解决目前现有技术中的数据采集方法无法控制抓取深度、垃圾信息多，方法繁琐，费时费力，效率低缺陷。

为实现上述目的，本发明提供HTML网页数据采集方法，所述HTML网页数据采集方法包括如下步骤：

判断当前页面是否包括列表页面；

若是，则根据所述列表页面对所述当前页面生成目标列表模块；

采集所述目标列表模块的详细页信息，并生成详细页路径规则。

优选地，所述步骤判断当前页面是否包括列表页面之后，还包括：

若否，则获取根据所述当前页面生成的详细字段信息；

保存所述详细字段信息。

优选地，所述步骤若是，则根据所述列表页面对所述当前页面生成目标列表模块之后，还包括：

判断所述目标列表模块下的下一级链接是否包含第二列表页面；