[发明专利]一种针对图片格式的网络爬虫提取URL并索引及映射的框架在审
申请号: | 201610997044.5 | 申请日: | 2016-11-11 |
公开(公告)号: | CN106503253A | 公开(公告)日: | 2017-03-15 |
发明(设计)人: | 张军 | 申请(专利权)人: | 张军 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 200061 上海市普*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种针对图片格式的网络爬虫提取URL并索引及映射的框架,可在适当增加数据量的前提下,通过METAFILE的关键词对URL进行索引,并与相关直方图建立映射,利用关键词对图片格式文件进行检索,再对检索结果进行直方图的精准检索,构建网络图片格式文件的搜索引擎。 | ||
搜索关键词: | 一种 针对 图片格式 网络 爬虫 提取 url 索引 映射 框架 | ||
【主权项】:
一种针对图片格式的网络爬虫提取URL并索引及映射的框架,其具体步骤如下:1)网络爬虫从遍历参数和起始URL开始;2)使用URL库中的第一个URL从网络上下载网页;3)将其传递给重复网页检查,重复核查的准确性取决于具体的遍历参数;4)如果网页没有被拒绝,则将它保存到网页库中;5)并传递给链接提取;6)链接提取从网页的METAFILE中提取链接,传递给URL检查;如果之前访问过,或不符合遍历参数表中列出的标准,则拒绝下载;7)同时提取直方图,传递给直方图库;8)将没有被拒绝的URL进行索引,递给URL库;并与相关直方图建立映射;9)URL库然后将一个未被访问的URL传递给网页提取。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于张军,未经张军许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610997044.5/,转载请声明来源钻瓜专利网。
- 上一篇:一种养胃润肠食疗养生粥配方
- 下一篇:一种调血脂、降血压食疗养生粥配方