[发明专利]一种可扩展的新闻网站通用爬虫方法及系统在审
申请号: | 202010617010.5 | 申请日: | 2020-07-01 |
公开(公告)号: | CN111723265A | 公开(公告)日: | 2020-09-29 |
发明(设计)人: | 赵粉玉;邱彦林;陈尚武 | 申请(专利权)人: | 杭州叙简科技股份有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951 |
代理公司: | 杭州浙言专利代理事务所(普通合伙) 33370 | 代理人: | 易朝晖 |
地址: | 311121 浙江省杭州市余杭区*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及及计算机领域,尤其涉及一种可扩展的新闻网站通用爬虫方法及系统,方法包括:添加需要爬取的网站url以及相关配置;获取需要爬取的网站以及相关配置;对网址使用通用解析规则解析并返回解析效果,如果解析错误,则加入网站相应的xpath解析规则;对加入xpath解析规则的网站使用配置解析,其它网站使用默认解析规则;对解析结果进行存储。本发明对网址使用通用解析规则解析并返回解析效果,如果解析错误,则加入网站相应的xpath解析规则;对加入xpath解析规则的网站使用配置解析,其它网站使用默认解析规则,以实现对所有网站的爬取新闻解析都具有很高的正确率。 | ||
搜索关键词: | 一种 扩展 新闻 网站 通用 爬虫 方法 系统 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州叙简科技股份有限公司,未经杭州叙简科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202010617010.5/,转载请声明来源钻瓜专利网。