[发明专利]获取热点域名描述信息的方法、装置、设备及存储介质在审
申请号: | 202110107562.6 | 申请日: | 2021-01-26 |
公开(公告)号: | CN112784134A | 公开(公告)日: | 2021-05-11 |
发明(设计)人: | 霍鹏磊;张伟哲;张宾;董国忠;刘鹏辉 | 申请(专利权)人: | 鹏城实验室 |
主分类号: | G06F16/951 | 分类号: | G06F16/951 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 张志江 |
地址: | 518000 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 获取 热点 域名 描述 信息 方法 装置 设备 存储 介质 | ||
本发明属于互联网技术领域,公开了一种获取热点域名描述信息的方法、装置、设备及存储介质。该方法包括:获取预设时间粒度的若干热点域名;对若干热点域名进行筛选,得到筛选后的待处理域名;根据待处理域名的顶级域进行分组,得到待爬取列表,待爬取列表中包含顶级域以及对应的域名列表;遍历待爬取列表,对遍历到的顶级域进行爬取,得到对应的描述信息;将描述信息作为域名列表中各待处理域名对应的描述信息。通过上述方式,对热点域名进行筛选以及分组,对待处理域名的顶级域进行爬取,将爬取到的顶级域的描述信息作为对应分组内各待处理域名的描述信息,从而大大减少了海量热点域名的爬虫数量,减少了整体爬虫时间,提高了爬虫速度。
技术领域
本发明涉及互联网技术领域,尤其涉及一种获取热点域名描述信息的方法、装置、设备及存储介质。
背景技术
域名是互联网中的重要资源,是实现互联网服务获取和资源访问的核心功能,几乎所有互联网应用的正常运行都离不开域名系统(英文:Domain Name System,DNS)的支持。DNS是全球互联网服务的基石,是互连网络通信的重要保障。DNS服务器上每天会产生大量的资源访问记录,对其中的域名数据,通过访问量排序,筛选出每天的热点域名。将热点域名及通过爬虫获取到的热点域名描述信息通过一定的属性映射,保存到数据库中。这些海量域名描述信息数据可以方便后续进行语义分析、恶意域名检测、钓鱼网站检测和黄赌毒网站分析等场景。
现有爬虫方式,通常是使用Scrapy、PySpider等框架和Beautiful Soup等网页分析工具进行爬虫。无论是爬虫框架还是Beautiful Soup网页分析工具,都是只使用一种方式,遍历式请求待爬虫url,当面对海量热点域名数据需要进行爬虫处理时,即使使用多线程或者多进程,也会出现爬虫的成功率低以及爬虫速度慢等问题。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种获取热点域名描述信息的方法、装置、设备及存储介质,旨在解决当面对海量热点域名数据需要进行爬虫处理时,存在爬虫速度慢的技术问题。
为实现上述目的,本发明提供了一种获取热点域名描述信息的方法,所述方法包括以下步骤:
获取预设时间粒度的若干热点域名;
对所述若干热点域名进行筛选,得到筛选后的待处理域名;
根据所述待处理域名的顶级域进行分组,得到待爬取列表,所述待爬取列表中包含所述顶级域以及对应的域名列表;
遍历所述待爬取列表,对遍历到的顶级域进行爬取,得到对应的描述信息;
将所述描述信息作为所述域名列表中各待处理域名对应的描述信息。
可选地,遍历所述待爬取列表,对遍历到的顶级域进行爬取,得到对应的描述信息,包括:
遍历所述待爬取列表,根据预设优先级顺序调用第一爬取策略,根据所述第一爬取策略对遍历到的顶级域进行爬取;
在未爬取到对应的描述信息时,根据所述预设优先级顺序调用第二爬取策略,根据所述第二爬取策略对遍历到的顶级域进行爬取,以获取对应的描述信息。
可选地,根据所述待处理域名的顶级域进行分组,得到待爬取列表,包括:
通过顶级域名提取策略分割出所述待处理域名对应的主机名和顶级域名;
将所述主机名和所述顶级域名通过字符拼接组成顶级域字段值;
根据所述顶级域字段值对所述待处理域名进行分组,确定所述顶级域字段值对应的域名列表;
根据所述顶级域字段值以及所述域名列表构成待爬取列表。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鹏城实验室,未经鹏城实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110107562.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于河道闸口的自动捕鱼装置及其捕鱼方法
- 下一篇:一种化学桶清洗装置