[发明专利]一种基于爬虫的安全威胁情报获取及研判方法在审

申请号：	202310065703.1	申请日：	2023-02-06
公开（公告）号：	CN116089959A	公开（公告）日：	2023-05-09
发明（设计）人：	李忆平;董铖;白东鑫;李哲;朱琳;庞景秋;齐井春	申请（专利权）人：	长春嘉诚信息技术股份有限公司
主分类号：	G06F21/57	分类号：	G06F21/57;G06F16/951;G06F16/215;G06F9/48;G06F16/84;G06N3/08;G06F18/214;G06F18/24
代理公司：	北京天江律师事务所 11537	代理人：	何志国
地址：	130103 吉林省***	国省代码：	吉林;22
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于爬虫安全威胁情报获取研判方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于爬虫的安全威胁情报获取及研判方法，其特征在于，

所述获取方法包括：

S1.收集、汇总威胁情报的地址信息；

S2.将汇总的地址信息加入消息队列；

S3.通过分布式爬虫调度多线程并发获取消息队列中的地址信息，并异步爬取地址信息相对应的网页数据；

S4.基于预置的匹配模型对网页数据进行匹配操作，获取安全威胁情报；

S5.对安全威胁情报进行数据清洗、过滤；

所述研判方法包括：

A1.将获取的安全威胁情报转换成xml格式；

A2.调用A1中转换成xml格式的数据，并提取xml格式数据的根标签；

A3.解析A2中提取的根标签声明的对象，进而将该声明的对象生成根标签中文本内容的数组；

A4.根据深度学习分类模型构造研判模型，根据STIX规范制作训练样本并训练研判模型；

A5.挑选数组作为输入、预测对象作为输出的研判模型；

A6.研判模型根据输入的数组，进而输出待预测对象的预测数组；

A7.解析预测数组并作为带预测对象的文本内容；

A8.基于研判模型解析全部安全威胁情报，并将其重新保存至数据库；

最终，使得使用者可调用最新的安全威胁情报数据作为资产安全威胁分析的依据。

2.根据权利要求1所述的基于爬虫的安全威胁情报获取及研判方法，其特征在于：所述S1中的地址信息为待爬取的目标的地址信息。

3.根据权利要求1所述的基于爬虫的安全威胁情报获取及研判方法，其特征在于：所述S2中的消息队列为中间容器，其在内存空间汇总构建，进而使地址信息可以实现异步操作和分布式并发处理。

4.根据权利要求1所述的基于爬虫的安全威胁情报获取及研判方法，其特征在于：在所述S3中通过分布式爬虫调度多线程时，线程执行任务采用的是单线程模式，当任意一个线程处于等待状态，则立刻挂起该线程，并唤醒其他线程执行各自任务，以此实现并发。

5.根据权利要求4所述的基于爬虫的安全威胁情报获取及研判方法，其特征在于：所述S3中，

首先，通过线程获取到地址信息的情况下，还通过线程基于随机获取的源地址，进而向对应地址信息的目标设备发送用于获取网页数据的第一请求，并挂起完成第一请求发送操作的协程；

其次，待接收到返回自目标设备的网页数据，唤醒所挂起的线程，并通过协程存储网页数据；

最后，将获取的网页上随机的源地址返回到消息队列中。

6.根据权利要求5所述的基于爬虫的安全威胁情报获取及研判方法，其特征在于：将所述随机的源地址作为发送该第一请求的分布式爬虫的代理地址，再将地址信息作为目标设备的目标地址，然后基于通信协议构建并作为第一请求的通信数据包，进而向目标设备发送该通信数据包，以请求获取目标网页的网页数据。

7.根据权利要求1所述的基于爬虫的安全威胁情报获取及研判方法，其特征在于：所述S4中的匹配模型是基于预置的正则匹配模型对网页数据进行正则匹配操作，以获取安全威胁情报。

8.根据权利要求1所述的基于爬虫的安全威胁情报获取及研判方法，其特征在于：所述安全威胁情报包括域名、IP地址、URL、POC特征、木马文件的哈希值，针对不同数据分别配置相应的匹配模型且可同时加载多个匹配模型，进而在获取安全威胁情报后，将安全威胁情报存储在数据库中等待研判；

其中，获取安全威胁情报就是从网页数据中查找并提取符合特定编排规则的字符串，在实际操作过程中根据不同情报数据的字符串编排规则创建不同的正则表达式，并基于正则表达式构建正则匹配模型。

9.根据权利要求1所述的基于爬虫的安全威胁情报获取及研判方法，其特征在于，所述A4中根据STIX规范制作训练样本并训练研判模型的具体步骤为：

(1)获取基于STIX1.0规范的数据；

(2)提取数据中的根标签；

(3)解析根标签声明的对象；

(4)根据对象生成根标签中文本内容的数组；

(5)分配STIX1.0规范中至少一个对象的数组，同时作为输入样本和输出样本；

(6)根据输入样本和输出样本训练判研模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于长春嘉诚信息技术股份有限公司，未经长春嘉诚信息技术股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202310065703.1/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载