[发明专利]一种基于爬虫的安全威胁情报获取及研判方法在审
申请号: | 202310065703.1 | 申请日: | 2023-02-06 |
公开(公告)号: | CN116089959A | 公开(公告)日: | 2023-05-09 |
发明(设计)人: | 李忆平;董铖;白东鑫;李哲;朱琳;庞景秋;齐井春 | 申请(专利权)人: | 长春嘉诚信息技术股份有限公司 |
主分类号: | G06F21/57 | 分类号: | G06F21/57;G06F16/951;G06F16/215;G06F9/48;G06F16/84;G06N3/08;G06F18/214;G06F18/24 |
代理公司: | 北京天江律师事务所 11537 | 代理人: | 何志国 |
地址: | 130103 吉林省*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 爬虫 安全 威胁 情报 获取 研判 方法 | ||
本发明公开了一种基于爬虫的安全威胁情报获取及研判方法,通过分布式爬虫调度多线程并发获取消息队列中的地址信息,并异步爬取地址信息相对应的网页数据,基于预置的匹配模型对网页数据进行匹配操作,获取安全威胁情报,对安全威胁情报进行数据清洗、过滤,进而再进行一系列研判操作;本发明不仅基于爬虫高效获取高质量且全面的安全威胁情报,还针对性构建研判模型对获取的安全威胁情报进行研判,实现对不符合STIX规范或存在缺陷威胁情报中未被包括对象的研判,补全了安全威胁情报信息,提高了信息安全。
技术领域
本发明涉及一种安全威胁情报获取及研判方法,尤其涉及一种基于爬虫的安全威胁情报获取及研判方法,属于安全防护技术领域。
背景技术
在本领域内,威胁的定义是:可能导致对系统或组织危害的不希望事故潜在起因;
威胁情报则是能够反馈起因存在时攻击者执行若干重要特征的数据集;
而安全威胁情报集合通常是通过爬虫爬取的,这些数据杂乱,不规范,无法直接被有效地使用,需要对这些威胁信息规范化和研判,如此需要一种基于爬虫的安全威胁情报获取及研判方法。
发明内容
为了解决上述技术所存在的不足之处,本发明提供了一种基于爬虫的安全威胁情报获取及研判方法。
一种基于爬虫的安全威胁情报获取及研判方法,
获取方法包括:
S1.收集、汇总威胁情报的地址信息;
S2.将汇总的地址信息加入消息队列;
S3.通过分布式爬虫调度多线程并发获取消息队列中的地址信息,并异步爬取地址信息相对应的网页数据;
S4.基于预置的匹配模型对网页数据进行匹配操作,获取安全威胁情报;
S5.对安全威胁情报进行数据清洗、过滤;
研判方法包括:
A1.将获取的安全威胁情报转换成xml格式;
A2.调用A1中转换成xml格式的数据,并提取xml格式数据的根标签;
A3.解析A2中提取的根标签声明的对象,进而将该声明的对象生成根标签中文本内容的数组;
A4.根据深度学习分类模型构造研判模型,根据STIX规范制作训练样本并训练研判模型;
A5.挑选数组作为输入、预测对象作为输出的研判模型;
A6.研判模型根据输入的数组,进而输出待预测对象的预测数组;
A7.解析预测数组并作为带预测对象的文本内容;
A8.基于研判模型解析全部安全威胁情报,并将其重新保存至数据库;
最终,使得使用者可调用最新的安全威胁情报数据作为资产安全威胁分析的依据。
进一步地,S1中的地址信息为待爬取的目标的地址信息。
进一步地,S2中的消息队列为中间容器,其在内存空间汇总构建,进而使地址信息可以实现异步操作和分布式并发处理。
进一步地,在S3中通过分布式爬虫调度多线程时,线程执行任务采用的是单线程模式,当任意一个线程处于等待状态,则立刻挂起该线程,并唤醒其他线程执行各自任务,以此实现并发。
进一步地,S3中,
首先,通过线程获取到地址信息的情况下,还通过线程基于随机获取的源地址,进而向对应地址信息的目标设备发送用于获取网页数据的第一请求,并挂起完成第一请求发送操作的协程;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长春嘉诚信息技术股份有限公司,未经长春嘉诚信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310065703.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种导航通信装置和系统
- 下一篇:一种重放攻击的防御方法及系统