[发明专利]一种基于BERT问答模型的漏洞事件抽取方法及系统在审
申请号: | 202210519629.1 | 申请日: | 2022-05-13 |
公开(公告)号: | CN114841166A | 公开(公告)日: | 2022-08-02 |
发明(设计)人: | 李斌;魏颖;孙小兵;薄莉莉;李莉莉;肖逸程 | 申请(专利权)人: | 扬州大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/216;G06N3/04;G06N3/08;G06F16/35;G06F16/31;G06F16/332;G06F21/57 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 张弛 |
地址: | 225009 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 bert 问答 模型 漏洞 事件 抽取 方法 系统 | ||
本发明公开了一种基于BERT问答模型的漏洞事件抽取方法,将漏洞作为含有过程的事件,从漏洞描述文本中抽取动态的事件信息,应用BIOFR标注方法,为利用语句结构确定抽取内容提供标注方法基础,同时利用漏洞事件触发词与漏洞事件元素具有关联性的特性,建立基于漏洞事件触发词类别的问题模板,利用目标漏洞事件触发词指导目标漏洞事件元素的抽取,提高目标漏洞事件元素抽取的准确性,最终为漏洞分析提供辅助作用,本发明对应提供一种基于BERT问答模型的漏洞事件抽取系统。
技术领域
本发明涉及软件安全领域,尤其是一种基于BERT问答模型的漏洞事件抽取方法及系统。
背景技术
如今,软件安全正在成为一个新兴的全球性挑战,漏洞分析是解决软件安全威胁的重要组成部分。
公共安全数据库如CVE和NVD漏洞数据库存储了大量关于已知漏洞的报告,安全公司和管理人员依靠这些报告中的信息来确定为其客户开发和部署补丁的任务的优先级。这些报告中的文本漏洞描述涵盖了大量有效信息,这是漏洞分析的基础。随着漏洞数量和威胁级别的不断增长,对已知漏洞的手动分析极具挑战,需要具备丰富知识和经验的分析师进行分析。因此,从漏洞描述中自动抽取信息以促进漏洞分析和安全相关研究非常重要,例如支持漏洞分类、严重性评估和漏洞关系识别等。
现有的漏洞信息抽取方法大多集中于静态信息中,即名词形式的信息,如《Information Extraction of Cybersecurity Concepts:an LSTM Approach》提出了一个与领域无关的LSTM-CRF模型,从网络安全漏洞描述的文本描述中提取信息,从而简化了语料库的训练过程并获得了更高的准确率,如《CyberRel:Joint Entity and RelationExtraction for Cybersecurity Concepts》提出了一种用于网络安全概念的联合实体和关系提取模型CyberRel,该模型将联合提取问题建模为多序列标签问题,并为不同的关系生成单独的标签序列。这些模型都提取了漏洞静态实体,但忽略了漏洞描述文本中的动态信息,难以精准辅助漏洞分析和诊断。其次,由于预训练语言模型可以使用大量未标记的数据来学习通用语言表示,因此使用它们进行特征学习通常比使用传统神经网络进行特征学习的方法有相当大的改进,因此,也有一些工作开始用预训练的方法来识别事件,例如《Event Extraction as Machine Reading Comprehension》利用BERT预训练模型进行句子表示学习,并基于阅读理解任务抽取事件的触发词,利用逻辑回归模型对事件进行分类,但该方法是一种通用的事件抽取方法,并没有考虑到漏洞领域的语句特征,因此导致使用该方法进行漏洞事件识别时存在局限性。
发明内容
发明目的:本发明的目的在于提供一种基于BERT问答模型的漏洞事件抽取方法,明确漏洞文本中的事件信息,辅助开发人员进行漏洞分析及诊断。
技术方案:本发明提供一种基于BERT问答模型的漏洞事件抽取方法,包含以下步骤:
1)根据CVE-ID从漏洞数据库中爬取漏洞报告的描述文本,构建漏洞数据集,该漏洞报告的描述文本由漏洞事件元素组成;
2)将漏洞的发生原因作为漏洞事件触发词,利用BIOFR标注方法对漏洞事件触发词进行类别标注,并对漏洞事件元素进行标注,获取每个漏洞事件的各项元素,形成漏洞事件元素标注数据集;
3)利用命名实体识别模型BERT+BiLSTM+CRF对漏洞事件元素标注数据集进行训练,提取目标漏洞事件触发词;
4)将目标漏洞事件触发词和漏洞报告的描述文本相连接,利用SoftMax分类器对目标漏洞事件触发词进行分类得到漏洞事件触发词类别;
5)利用漏洞事件触发词类别构建BERT问答模型的问题,使用BERT问答模型进行目标漏洞事件元素的抽取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于扬州大学,未经扬州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210519629.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高效散热的计算机主机箱
- 下一篇:一种微网系统电感设计方法及系统