[发明专利]一种基于网络爬虫的网站行政归属识别方法在审

申请号：	201710866237.1	申请日：	2017-09-22
公开（公告）号：	CN107590265A	公开（公告）日：	2018-01-16
发明（设计）人：	邱煜铭;范渊	申请（专利权）人：	杭州安恒信息技术有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	杭州赛科专利代理事务所(普通合伙)33230	代理人：	郭薇,冯年群
地址：	310052 浙江省杭州***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种基于网络爬虫的网站行政归属识别方法，初始化待处理网站队列，创建线程，根据待处理网站的URL，获取所述URL的一级域名URL并爬取首页、解析获取内容信息，查看内容信息是否包含归属地，若否则提取内容信息关键字和下级URL及其内容信息关键字分别存入第一关键字表和第二关键字表并匹配，包含ICP信息则获得当前域名所在省位置并句法分析出地市信息，若否则查找第一关键字表和第二关键字表中与地址相关的信息并句法分析，获得匹配度最高的共同地址，得到网站的归属地。本方法利用爬虫技术，对网站URL进行自动检测和比对，节省人工判定和处理时间，实时采集处理数据，提高数据有效性，检测效果好。
搜索关键词：	一种基于网络爬虫网站行政归属识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于网络爬虫的网站行政归属识别方法，其特征在于：所述方法包括以下步骤：步骤1：初始化待处理网站队列，创建线程；步骤2：根据待处理网站的URL，获取所述URL的一级域名URL；步骤3：爬取所述一级域名URL的首页，解析获取首页的内容信息；步骤4：判断内容信息中是否包含归属地名称；若是，则该归属地名称为待处理网站的归属地，返回步骤2；若否，进行下一步；步骤5：采用命名实体识别工具，提取内容信息中的关键字，将关键字存入第一关键字表，并将当前URL标记为已抓取URL；将当前URL的内容中的二级URL放入待处理网站队列，爬取二级URL的二级页面，解析获取二级页面的内容信息，并将二级页面的内容信息中的关键字存入第二关键字表；步骤6：对第一关键字表和第二关键字表进行匹配；判断第一关键字表和第二关键字表中是否包含ICP信息，若有，根据ICP信息获得当前域名所在省位置，通过句法分析匹配出对应的地市信息，得到网站的归属地，返回步骤2；若否，进行下一步；步骤7：通过查找第一关键字表和第二关键字表中是否包括与地址相关的信息，对地址信息进行句法分析，匹配出匹配度最高的共同地址，得到网站的归属地，返回步骤2。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术有限公司，未经杭州安恒信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710866237.1/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于网络爬虫的网站行政归属识别方法在审

专利文献下载