[发明专利]一种基于BERT问答模型的漏洞事件抽取方法及系统在审
申请号: | 202210519629.1 | 申请日: | 2022-05-13 |
公开(公告)号: | CN114841166A | 公开(公告)日: | 2022-08-02 |
发明(设计)人: | 李斌;魏颖;孙小兵;薄莉莉;李莉莉;肖逸程 | 申请(专利权)人: | 扬州大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/216;G06N3/04;G06N3/08;G06F16/35;G06F16/31;G06F16/332;G06F21/57 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 张弛 |
地址: | 225009 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 bert 问答 模型 漏洞 事件 抽取 方法 系统 | ||
1.一种基于BERT问答模型的漏洞事件抽取方法,其特征在于,包含以下步骤:
1)根据CVE-ID从漏洞数据库中爬取漏洞报告的描述文本,构建漏洞数据集,该漏洞报告的描述文本由漏洞事件元素组成;
2)将漏洞的发生原因作为漏洞事件触发词,利用BIOFR标注方法对漏洞事件触发词进行类别标注,并对漏洞事件元素进行标注,获取每个漏洞事件的各项元素,形成漏洞事件元素标注数据集;
3)利用命名实体识别模型BERT+BiLSTM+CRF对漏洞事件元素标注数据集进行训练,提取目标漏洞事件触发词;
4)将目标漏洞事件触发词和漏洞报告的描述文本相连接,利用SoftMax分类器对目标漏洞事件触发词进行分类得到漏洞事件触发词类别;
5)利用漏洞事件触发词类别构建BERT问答模型的问题,使用BERT问答模型进行目标漏洞事件元素的抽取。
2.根据权利要求1所述的基于BERT问答模型的漏洞事件抽取方法,其特征在于,步骤1)中,包含多个不同漏洞数据库,不同漏洞数据库中具有不同的漏洞描述且相互补充,使得漏洞事件元素具有完整性,根据CVE-ID从多个不同漏洞数据库中的其中两个漏洞数据库中爬取漏洞报告的描述文本,构建漏洞数据集。
3.根据权利要求1所述的基于BERT问答模型的漏洞事件抽取方法,其特征在于,步骤2)包含以下步骤:
2.1)将漏洞报告的描述文本中表示漏洞发生原因的词语作为漏洞事件触发词,利用BIOFR标注方法对漏洞事件触发词进行标注,BIOFR标注方法分别表示Begin、Inside、Outside、Front、Rear;
2.2)漏洞事件元素有Trigger Operation触发操作、Location位置、Attacker攻击者、Version影响版本、Consequence后果和Situation发生情境,手动对漏洞事件元素进行标注,获取每个漏洞事件的各项元素,最终形成漏洞事件元素标注数据集。
4.根据权利要求1所述的基于BERT问答模型的漏洞事件抽取方法,其特征在于,步骤3)中,利用漏洞事件元素标注数据集,训练BERT模型的序列进行标注任务,利用训练后的BERT模型连接BiLSTM层和CRF层进行目标漏洞事件触发词的提取,其中BERT模型用于生成词嵌入的预训练模型,BiLSTM层用于提取词上下文的特征,CRF层用于为最后预测的标签添加约束使得预测的标签合法。
5.根据权利要求1所述的基于BERT问答模型的漏洞事件抽取方法,其特征在于,步骤4)中,利用SoftMax分类器对目标漏洞事件触发词进行分类得到漏洞事件触发词类别,在多项逻辑回归和线性判别分析中,SoftMax函数的输入是从K个不同的线性函数得到的结果,样本向量x属于第j个分类的概率为如下函数:
其中,y表示某个类别,x为样本向量,xT为样本向量的转置向量,W为权重参数,该函数的分子是通过指数函数将实数输出映射到零至正无穷,分母是将所有结果相加,进行归一化,且样本向量x属于每个分类的概率值的和为1,选取概率最高值为该样本的分类类别,以此获取漏洞事件触发词的类别。
6.根据权利要求1所述的基于BERT问答模型的漏洞事件抽取方法,其特征在于,步骤5)包含以下步骤:
5.1)利用漏洞事件触发词类别生成BERT问答模型的问题,利用目标漏洞事件触发词指导目标漏洞事件元素的抽取,根据每个漏洞事件触发词类别设计对应的问题模板;
5.2)确定问题模板后,利用BERT问答模型进行训练获取目标漏洞事件元素,设定设计的问题为Q,漏洞条目的描述为D,将设计的问题Q,漏洞条目的描述D转换成BERT预训练模型的输入序列,计算得到漏洞事件元素,最终,获取的目标漏洞事件触发词和目标漏洞事件元素即为漏洞事件抽取的最终结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于扬州大学,未经扬州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210519629.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高效散热的计算机主机箱
- 下一篇:一种微网系统电感设计方法及系统