[发明专利]获取热点域名描述信息的方法、装置、设备及存储介质在审
申请号: | 202110107562.6 | 申请日: | 2021-01-26 |
公开(公告)号: | CN112784134A | 公开(公告)日: | 2021-05-11 |
发明(设计)人: | 霍鹏磊;张伟哲;张宾;董国忠;刘鹏辉 | 申请(专利权)人: | 鹏城实验室 |
主分类号: | G06F16/951 | 分类号: | G06F16/951 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 张志江 |
地址: | 518000 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 获取 热点 域名 描述 信息 方法 装置 设备 存储 介质 | ||
1.一种获取热点域名描述信息的方法,其特征在于,所述获取热点域名描述信息的方法包括:
获取预设时间粒度的若干热点域名;
对所述若干热点域名进行筛选,得到筛选后的待处理域名;
根据所述待处理域名的顶级域进行分组,得到待爬取列表,所述待爬取列表中包含所述顶级域以及对应的域名列表;
遍历所述待爬取列表,对遍历到的顶级域进行爬取,得到对应的描述信息;
将所述描述信息作为所述域名列表中各待处理域名对应的描述信息。
2.如权利要求1所述的获取热点域名描述信息的方法,其特征在于,遍历所述待爬取列表,对遍历到的顶级域进行爬取,得到对应的描述信息,包括:
遍历所述待爬取列表,根据预设优先级顺序调用第一爬取策略,根据所述第一爬取策略对遍历到的顶级域进行爬取;
在未爬取到对应的描述信息时,根据所述预设优先级顺序调用第二爬取策略,根据所述第二爬取策略对遍历到的顶级域进行爬取,以获取对应的描述信息。
3.如权利要求1所述的获取热点域名描述信息的方法,其特征在于,根据所述待处理域名的顶级域进行分组,得到待爬取列表,包括:
通过顶级域名提取策略分割出所述待处理域名对应的主机名和顶级域名;
将所述主机名和所述顶级域名通过字符拼接组成顶级域字段值;
根据所述顶级域字段值对所述待处理域名进行分组,确定所述顶级域字段值对应的域名列表;
根据所述顶级域字段值以及所述域名列表构成待爬取列表。
4.如权利要求3所述的获取热点域名描述信息的方法,其特征在于,所述根据所述顶级域字段值以及所述域名列表构成待爬取列表,包括:
将所述顶级域字段值以及所述域名列表以键值对的形式组成字典对象;
通过预设数据格式转换策略将所述字典对象转换为待爬取列表中的元组,以构成待爬取列表。
5.如权利要求1所述的获取热点域名描述信息的方法,其特征在于,所述将所述描述信息作为所述域名列表中各待处理域名对应的描述信息之后,所述方法还包括:
根据所述待处理域名以及所述描述信息确定预设字段值;
通过预设批量写入策略将所述预设字段值写入预设数据库,其中,所述预设字段值至少包括:起始域名、顶级域、爬虫标志位、域名描述、域名标题、结果代码、域名标识以及域名分类。
6.如权利要求5所述的获取热点域名描述信息的方法,其特征在于,所述通过预设批量写入策略将所述预设字段值写入预设数据库之前,所述方法还包括:
在获取到所述描述信息时,将所述域名列表中各待处理域名对应的爬虫标志位字段值设置为预设爬虫成功标志。
7.如权利要求1至6中任一项所述的获取热点域名描述信息的方法,其特征在于,所述对所述若干热点域名进行筛选,得到筛选后的待处理域名,包括:
遍历所述若干热点域名,将遍历到的目标热点域名与预设数据库进行匹配;
在匹配到所述目标热点域名时,确定所述预设数据库中所述目标热点域名对应的爬虫标志位;
在所述爬虫标志位为预设爬虫成功标志时,将所述目标热点域名筛除,以得到筛选后的待处理域名。
8.一种获取热点域名描述信息的装置,其特征在于,所述获取热点域名描述信息的装置包括:
获取模块,用于获取预设时间粒度的若干热点域名;
筛选模块,用于对所述若干热点域名进行筛选,得到筛选后的待处理域名;
分组模块,用于根据所述待处理域名的顶级域进行分组,得到待爬取列表,所述待爬取列表中包含所述顶级域以及对应的域名列表;
爬取模块,用于遍历所述待爬取列表,对遍历到的顶级域进行爬取,得到对应的描述信息;
写入模块,用于将所述描述信息作为所述域名列表中各待处理域名对应的描述信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鹏城实验室,未经鹏城实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110107562.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于河道闸口的自动捕鱼装置及其捕鱼方法
- 下一篇:一种化学桶清洗装置