首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种基于网络爬虫的网站行政归属识别方法在审

申请号：	201710866237.1	申请日：	2017-09-22
公开（公告）号：	CN107590265A	公开（公告）日：	2018-01-16
发明（设计）人：	邱煜铭;范渊	申请（专利权）人：	杭州安恒信息技术有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	杭州赛科专利代理事务所(普通合伙)33230	代理人：	郭薇,冯年群
地址：	310052 浙江省杭州***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于网络爬虫网站行政归属识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于网络爬虫的网站行政归属识别方法，其特征在于：所述方法包括以下步骤：

步骤1：初始化待处理网站队列，创建线程；

步骤2：根据待处理网站的URL，获取所述URL的一级域名URL；

步骤3：爬取所述一级域名URL的首页，解析获取首页的内容信息；

步骤4：判断内容信息中是否包含归属地名称；若是，则该归属地名称为待处理网站的归属地，返回步骤2；若否，进行下一步；

步骤5：采用命名实体识别工具，提取内容信息中的关键字，将关键字存入第一关键字表，并将当前URL标记为已抓取URL；将当前URL的内容中的二级URL放入待处理网站队列，爬取二级URL的二级页面，解析获取二级页面的内容信息，并将二级页面的内容信息中的关键字存入第二关键字表；

步骤6：对第一关键字表和第二关键字表进行匹配；判断第一关键字表和第二关键字表中是否包含ICP信息，若有，根据ICP信息获得当前域名所在省位置，通过句法分析匹配出对应的地市信息，得到网站的归属地，返回步骤2；若否，进行下一步；

步骤7：通过查找第一关键字表和第二关键字表中是否包括与地址相关的信息，对地址信息进行句法分析，匹配出匹配度最高的共同地址，得到网站的归属地，返回步骤2。

2.根据权利要求1所述的一种基于网络爬虫的网站行政归属识别方法，其特征在于：所述步骤2中，若爬取过程中网页内容包含反爬信息，则将URL放回待处理网站队列中，并进行反爬处理。

3.根据权利要求2所述的一种基于网络爬虫的网站行政归属识别方法，其特征在于：所述反爬处理包括切换IP和降低请求速率。

4.根据权利要求1所述的一种基于网络爬虫的网站行政归属识别方法，其特征在于：所述步骤3中，首页的内容信息包括人名、地名、机构名、邮编和传真电话。

5.根据权利要求1所述的一种基于网络爬虫的网站行政归属识别方法，其特征在于：所述步骤6中，ICP信息包括单位名称、网站ICP许可证号、网站名称和网站首页。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术有限公司，未经杭州安恒信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710866237.1/1.html，转载请声明来源钻瓜专利网。

上一篇：一种轨道式钢管锯床基础结构
下一篇：高精度高效率齿轮加工设备

同类专利

专利分类

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top