[发明专利]一种基于短文本的网络安全威胁事件抽取方法在审
申请号: | 202111129374.X | 申请日: | 2021-09-26 |
公开(公告)号: | CN113886524A | 公开(公告)日: | 2022-01-04 |
发明(设计)人: | 黄诚;高健;方勇;欧浩然 | 申请(专利权)人: | 四川大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F16/9536;G06F40/295;G06Q50/00;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610065 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文本 网络安全 威胁 事件 抽取 方法 | ||
本申请是一种基于短文本的网络安全威胁事件抽取方法,抽取的对象是社交媒体平台发布的短文本信息。本申请的技术核心是基于BiLSTM和注意力机制的特征融合事件检测方法、基于多元素的网络安全威胁事件元素识别方法以及基于联合模型的多任务事件抽取方法。该方法的工作流程为首先使用多维度的集成词向量作为重要特征进行网络安全威胁事件检测,同时从基于规则模板以及深度学习多种方法研究网络安全威胁事件元素识别。此外,还基于联合模型多任务处理上诉两者子任务,最后以非流水线式的方式完成网络安全威胁事件的抽取。
技术领域
本发明涉及到网络安全威胁事件领域,具体而言,涉及到一种网络安全威胁事件抽取方法。
背景技术
当今世界各类攻击性极高的网络安全事件时有发生,并且攻击面也越来越广,网络安全态势十分严峻。因人们的日常工作和生活需要,网络社交媒体的应用越来越广泛,各类社交媒体平台中的数据信息迅猛增长。新闻、网络媒体机构也在社交平台上建立官方账号,发布实时新闻,其中就有许多网络安全公司及个人第一时间发布关于网络攻击事件的新闻。如何利用网络中公开发布的海量媒体信息,有效获得并抽取出直观的网络安全威胁事件内容,对网络安全从业人员了解相关网络安全威胁事件并积极实施网络安全防御有十分重要的帮助。
现有的网络安全威胁事件检测技术及广域上事件抽取技术主要存在以下两个问题:
(1)由于研究领域的不同,直接应用广域上的相关技术在网络安全威胁事件抽取领域时,会出现实体抽取效果较差、事件检测不准确问题;
(2)社交媒体的独特性,社交媒体信息具有用户发布的信息较短、用户用词口语化严重、文本的规范连通性较差特点,这极大程度加大关键信息的抽取难度。
针对社交媒体短文本在网络安全威胁事件抽取领域文本过短、口语化词汇过多,信息连通性较差问题,目前亟需一种基于短文本的网络安全威胁事件抽取方法,能有效的从社交媒体平台发布的短文本信息中抽取网络安全威胁事件,为安全人员及时应对网络威胁事件并积极实施网络安全防御提供有效帮助。
发明内容
有鉴于此,本申请的目的在于提供一种基于短文本的网络安全威胁事件抽取方法,旨在解决网络安全威胁事件抽取中的事件检测与事件元素识别的问题。本申请实施例提供了一种基于短文本的网络安全威胁事件抽取方法,应用于对社交媒体平台短文本领域中出现的网络安全威胁事件信息进行有效的事件抽取;所述方法包括:
采集所述原始数据集,对数据集进行清洗和标注生成适用于网络安全威胁事件检测与事件元素识别的语料库。
根据生成的语料库,使用多种词向量模型对文本进行单词级别向量嵌入,使用LDA主题模型获取文本关键字进行文本句子级别向量嵌入,完成多维度集成编码的文本特征向量表示用于事件检测;使用BiLSTM和注意力机制构建事件检测模型,全面获取文本的深层次语义特征、高效准确的进行事件检测。
同时使用Word2vec、Glove、FastText预训练好的词向量模型进行集成编码,获取单词级别的特征向量;使用IDA主题分类模型获取文本的主题关键字作为文本级特征;获取所述的两种特征向量作为BiLSTM和注意力机制的输入,训练网络安全威胁事件检测模型;
基于多因素的网络安全威胁领域事件元素识别模型根据不同事件元素特点完成事件元素的准确、高效识别。
首先使用基于规则模板的方法识别相应类型的网络安全命名实体,然后屏蔽已知的命名实体,训练基于BiLSTM和空洞卷积神经网络的网络安全威胁事件元素识别模型。
使用联合模型有效完成网络安全威胁事件抽取的两个子任务,最终能够合理完成短文本网络安全威胁事件抽取。
网络完全威胁事件检测模型完成对事件的检测,多元素的网络安全威胁事件元素识别模型完成对事件元素的识别,最后根据事件类型建立不同的事件模板对事件元素进行模板填充完成整个事件的构建。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111129374.X/2.html,转载请声明来源钻瓜专利网。