[发明专利]一种基于短文本的网络安全威胁事件抽取方法在审

专利信息
申请号: 202111129374.X 申请日: 2021-09-26
公开(公告)号: CN113886524A 公开(公告)日: 2022-01-04
发明(设计)人: 黄诚;高健;方勇;欧浩然 申请(专利权)人: 四川大学
主分类号: G06F16/33 分类号: G06F16/33;G06F16/35;G06F16/9536;G06F40/295;G06Q50/00;G06N3/04;G06N3/08
代理公司: 暂无信息 代理人: 暂无信息
地址: 610065 四川*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 文本 网络安全 威胁 事件 抽取 方法
【权利要求书】:

1.一种基于短文本的网络安全威胁事件抽取方法,其特征在于,所述方法包括如下步骤: A、采集所述原始数据集,对数据集进行清洗和标注生成适用于网络安全威胁事件检测与事件元素识别的语料库;

B、采用集成编码的方式,使用不同的词向量预训练模型获得词级别的特征向量,使用LDA主题模型对文本的主题关键字进行提取获得文本级特征向量,使用BiLSTM和注意力机制对模型进行训练;

C、网络安全威胁事件元素识别模型根据网络安全威胁事件元素的构成特点,使用两种不同的方法从文本中提取事件元素;

D、建立联合模型,完成网络安全威胁事件抽取。

2.根据权利要求1所述的一种基于短文本的网络安全威胁事件抽取方法,其特征在于,所述的步骤A中数据采集过程包括如下:

(1)在样本采集阶段,使用爬虫技术,以推特媒体平台为对象,使用Twint库以关键字的形式从推文中寻找样本,去掉大量重复的或内容相近的文本,筛选过短、无信息量的文本;

(2)在数据自动预标注阶段,使用斯坦福命名实体识别工具对数据进行命名实体预标注,收集网络安全威胁事件领域的关键术语,形成对应词典进行特定的字词匹配标注;

(3)在数据手动标注和数据清理阶段,使用Brat开源系统,对实体标注进行修正,在手动标注之后重新清理数据,清理停顿词、冠词。

3.根据权利要求1所述的一种基于短文本的网络安全威胁事件抽取方法,其特征在于,所述的步骤B中网络安全威胁事件检测模型构建过程如下:

(1)对数据集进行统计得到单词字典,使用预训练好的Glove、Wordvec、FastText词向量模型进行单词级别的词向量嵌入;

(2)文本级别的特征向量获取,使用python的Gensim库构建LDA模型,遍历不同的主题个数得到不同的主题模型,使用主题的一致性衡量主题模型的优劣;

(3)检测模型的构建,使用Glove、Wordvec、FastText 对数据集进行词嵌入,对嵌入的结果分别使用自注意力机制和BiLSTM进行文本的上下文及关键部分特征获取,使用LSTM神经网络对结果进行联合,使用Droput层防止过拟合,Dense层进行全连接拼凑。

4.根据权利要求1所述的一种基于短文本的网络安全威胁事件抽取方法,其特征在于,所述的步骤C中两种从文本中提取事件元素的方法如下:

(1)针对于 IP、URL、漏洞编号、邮箱几类命名实体,采用了规则模板的方式进行提取;

(2)对由规则模板匹配出来的事件元素进行相应屏蔽,将已知的实体进行屏蔽之后将文本汇集;随后输入建立好神经网络,BiLSTM和IDCNN的输出视为文本的状态特征矩阵,接上 CRF 层则利用标签转移概率来约束标签的输出结果。

5.根据权利要求1所述的一种基于短文本的网络安全威胁事件抽取方法,其特征在于,所述的步骤D中建立联合模型的方法如下:

(1)网络完全威胁事件检测模型完成对事件的检测、多元素的网络安全威胁事件元素识别模型完成对事件元素的识别;

(2)根据事件类型建立不同的事件模板对事件元素进行模板填充完成整个事件的构建。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111129374.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top