[发明专利]一种基于开源库与文本挖掘的并行漏洞挖掘方法有效
申请号: | 201410332588.0 | 申请日: | 2014-07-12 |
公开(公告)号: | CN104166680B | 公开(公告)日: | 2017-05-17 |
发明(设计)人: | 赵向辉;刘林;刘晖;易锦;陈海强;张磊;姚原岗;李维杰;偰赓;刘彦钊 | 申请(专利权)人: | 中国信息安全测评中心 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京思海天达知识产权代理有限公司11203 | 代理人: | 刘萍 |
地址: | 100085 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于开源库与文本挖掘的并行漏洞挖掘方法,属于计算机信息安全技术领域。其步骤包括从开源库获取漏洞数据以及数据预处理,提取漏洞集合,文本向量化,计算阈值,发现并行漏洞。本发明的优点有基于开源信息库,提取同一攻击模式下相关漏洞信息,从而便于分析漏洞间潜在的并行关系;将漏洞的文字描述信息向量化,便于计算机系统对漏洞记录数据进行智能化处理;区别于基于关键字匹配的查询,本发明根据训练集得出的阈值考察漏洞间的相似度;可以计算漏洞间的并行关系,从而在发现一个漏洞被利用时迅速弥补其它并行漏洞,进而弥补整个网络的脆弱性,增强防御能力,对信息安全有很大的意义。 | ||
搜索关键词: | 一种 基于 开源库 文本 挖掘 并行 漏洞 方法 | ||
【主权项】:
一种基于开源库与文本挖掘的并行漏洞挖掘方法,其特征在于,步骤包括:1)数据获取与预处理;a)从开源库中获取原始攻击模式信息、脆弱性信息和漏洞信息;b)对获取的开源库信息数据进行数据清理,包括统一数据格式、数据净化、填充缺失属性和去除噪声数据;c)对清理后的数据建立数据集合,并形成标识到非结构化文本信息的映射,形成三个集合Pattern{p1,p2,…,pn},Weak{w1,w2,…,wm},Vulnerability{v1,v2,…,vs};其中pi代表一个攻击模式,wi代表一个脆弱性,vi代表一个漏洞;2)提取映射关系和漏洞集合;解析出攻击模式pi到脆弱性wj的映射关系、脆弱性wj到漏洞vk的映射关系,然后形成攻击模式pi到漏洞vk的映射关系,从而将庞大的漏洞库依据某一个攻击模式归纳到不同的漏洞集合;3)对漏洞的文本描述信息进行数学建模;d)提取漏洞的文本描述信息,进行分词,提取词干,依据特征词库对文本描述信息进行文本向量化;e)依据文本向量化的描述信息计算文档单词的tf/idf即词频/倒文档频值;4)对步骤2)中提取到的漏洞集合的漏洞,根据攻击模式的前置条件、后置条件及阈值进行筛选,得到并行漏洞组合的集合;f)依据人工标注的并行漏洞训练集,计算并行漏洞的余弦相似值的阈值和CVSS评估分数的欧几里得距离的阈值;h)对在步骤2)中获取的漏洞集合中,根据步骤3)中获取到的漏洞向量信息,对应于攻击模式的前置条件以及后置条件分别计算两个漏洞的余弦相似值;g)根据两个漏洞的余弦相似值和CVSS评估分数的欧几里得距离,将两项均在各自阈值范围内的漏洞判别为并行漏洞。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国信息安全测评中心,未经中国信息安全测评中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410332588.0/,转载请声明来源钻瓜专利网。