[发明专利]一种基于众包和机器学习的web漏洞验证方法有效
申请号: | 201811498958.2 | 申请日: | 2018-12-08 |
公开(公告)号: | CN111291376B | 公开(公告)日: | 2023-05-05 |
发明(设计)人: | 陈振宇;臧晓杰;仲逸秋;于越;房春荣;张欣 | 申请(专利权)人: | 深圳慕智科技有限公司 |
主分类号: | G06F21/57 | 分类号: | G06F21/57 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518000 广东省深圳市南山区粤海街道*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 学习 web 漏洞 验证 方法 | ||
基于众包和机器学习的web漏洞验证方法,其特征是使用自然语言处理技术,将众包漏洞验证报告中的文本描述进行分词,同义词替换,并基于DBSCAN的聚类分析等技术。本发明提出了一种全新的基于基于众包和机器学习的web漏洞验证技术,主要用于解决web安全漏洞误报率较高,安全专家团队人员二次人工验证成果过高的问题。本发明的有益效果在于三方面:1、通过众包派发方式,增加漏洞验证参与人员,众包报告结果结合机器学习分析,提升漏洞扫描报表的准确性;2、众包形式的验证方案对比专业安全专家团队验证,有利于节省二次人工验证的成本;3、该发明同时可用于“产教结合”的推广,提高安全专业学生的实践能力。
技术领域
本发明属于计算机领域,涉及到众包技术和机器学习技术,用于在众包人员提交漏洞报告之后对其有效地筛选以及评判其内容的准确性,方便之后技术专家对漏洞的定位和审核,为一种对漏洞报告的自动化验证方法。
背景技术
众包指的是一个公司或机构把过去由员工执行的工作任务,以自由自愿的形式外包给非特定的大众的做法。众包的任务通常是由个人来承担。这里的工作任务是众包人员对网络安全漏洞的发现或者重现,然后以文本的形式提交漏洞报告。
现市场众多的漏洞安全检测软件并不能做到完美的检测效果,以及有一定的误报率,公司内部靠人力重现漏洞场景对于公司来说是一笔不小的人力开销,用众包的方式收集漏洞报告又会出现报告质量参差不齐而且数量众多的问题,如何在这些漏洞报告中提取我们想要的关键性内容,如何筛选符合规范的报告,以及如何评判一个报告的准确性就是我们目前要解决的问题。
自然语言处理会先对报告进行一系列的分词和提取操作,通过对关键词的词频统计达到对报告准确性的分析。
机器学习方法主要通过DBSCAN的聚类方法,是一种典型的基于密度的聚类方法,可以无需事先知道聚类的个数以及黄金标准数据的情况下,找出形状不规则的聚类。
发明内容
本发明要解决的问题是:提出一种全新的基于众包和机器学习的web漏洞验证技术,主要用于解决web安全漏洞误报率较高,安全专家团队人员二次人工验证成果过高的问题。
本发明的技术方案为:基于众包和机器学习的web漏洞验证方法,其特征是使用自然语言分析及聚类分析,通过对众包人员提交的漏洞验证报告进行分析后确定web漏洞是否为误报,具体步骤为:
1)收集漏洞验证报告:收集众包人员提交的漏洞验证报告。
2)预处理漏洞验证报告,过滤不符合格式的漏洞验证报告,具体分为以下两个子步骤:
2a)根据规定的标准格式,即{R,C,S,L }四个维度是否具备,对不符合标准格式的报告进行过滤;
2b)过滤无关报告:由人工生成一个同义词集合,即将指代同一对象的不同词语作为一个集合,用同义词集合中的一个词语替换漏洞验证报告中含有的该同义词集合中的其他词语;对符合格式的报告中的重现场景等自然语言报告的部分通过同义词替换,后将每份报告中的关键字进行提取后进行词频统计,过滤所有关键字词频出现次数均为0的报告中的关键字进行提取后进行词频统计,过滤所有关键字词频出现次数均为0的报告。
3)对漏洞验证报告聚类分析:
根据步骤2)得到的经有效性筛选后的漏洞验证报告,进行基于{R,C,S,L }四个维度欧式距离的DBSCAN的聚类分析,通过无黄金标准数据参考下的聚类密度相连最大集来确定众包漏洞验证的最终结果:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳慕智科技有限公司,未经深圳慕智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811498958.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种光触媒喷涂车
- 下一篇:一种肉牛养殖投喂时防抢食设施