[发明专利]一种主题门户网站爬虫方法在审
申请号: | 202110051839.8 | 申请日: | 2021-01-15 |
公开(公告)号: | CN112749315A | 公开(公告)日: | 2021-05-04 |
发明(设计)人: | 徐静;韦婷婷;包先雨;黄大亮;徐天;赵清月;李妍 | 申请(专利权)人: | 大连海关技术中心 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955 |
代理公司: | 大连瑞博晟知识产权代理有限公司 21259 | 代理人: | 孙丽 |
地址: | 116000 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及网络信息抓取技术领域,具体为一种主题门户网站爬虫方法。该方法包括网页页面链接分析和提取,根据主题网站设计正则表达式以识别出父页和子页链接;网页内容提取,对子页链接下的正文内容进行提取,并将提取的正文内容存储到一个静态类中;数据持久化存储,用于存储从每个子页链接中提取的正文内容;增量抓取,针对主题网页中的更新内容进行抓取,每次增量更新时,重新提取主题网站首页的链接,只对新链接进行处理。通过本爬虫程序获取的页面,几乎无重复,并且能够精确获取到所需的主题,并且可有效防止包含同样内容的网页被多次下载,避免浪费大量cpu资源,减轻数据库存取带来的负荷。 | ||
搜索关键词: | 一种 主题 门户 网站 爬虫 方法 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连海关技术中心,未经大连海关技术中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202110051839.8/,转载请声明来源钻瓜专利网。