[发明专利]一种基于深度学习的威胁情报信息抽取方法在审
申请号: | 202210006117.5 | 申请日: | 2022-01-05 |
公开(公告)号: | CN114330322A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 李小勇;左峻嘉;高雅丽;兰天 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/221;G06F40/30;G06F16/951;G06F16/33;G06N3/04;G06N3/08 |
代理公司: | 北京挺立专利事务所(普通合伙) 11265 | 代理人: | 高福勇 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 威胁 情报 信息 抽取 方法 | ||
本发明公开了一种基于深度学习的威胁情报信息抽取方法,包括以下步骤:S1、情报采集:收集APT报告,对不同源分析网页结构设计web爬虫调用Request库完成非结构化情报文本的采集,设计布隆过滤器实现url的去重处理;S2、预处理:根据文章长度和关键词密度对输入的数据进行筛选,采用YEEDA对筛选出的APT报告进行实体关系标注;S3、实体关系抽取:对预处理好的非结构化APT报告抽取有价值的实体关系三元组。本发明的威胁情报信息抽取方法,通过调整深度神经网络模型并提出一种新的序列标注方法与实体关系抽取规则,解决当前威胁情报实体关系抽取系统存在传播误差以及模型对重叠关系实体抽取准确率不高的问题,同时给出了大规模威胁情报数据集构建以及预处理的细节。
技术领域
本发明涉及滤波器技术领域,尤其涉及一种基于深度学习的威胁情报 信息抽取方法。
背景技术
根据国际权威IT咨询机构Gartner提出的定义,威胁情报是关于IT或 信息资产所面临的已经存在或正在显露的威胁的循证知识,包括情景、机 制、指标、推论与可行建议,这些知识可为威胁响应提供决策依据。威胁 情报通过提供标准的知识定义、标签化的画像技术、场景化的应用方法, 可以为防护方提供战术级、运营级和战略级三级的情报,从而有效帮助防 护方漏洞检测管理、解决攻守方信息不对称的难题。由上述描述可知,威 胁情报可以作为安全专家在用户受到威胁或攻击时提供可行性建议,具有 智能化防御的重要价值。
近年来,网络攻击的数量和复杂性呈爆炸式增长。为了防御高级持续 威胁,安全制造商实时监视系统和软件漏洞,并生成大量警告信息。然而, 这些非结构化数据缺乏相关性,难以直接利用。因此,从海量数据中获取 有效的安全信息已成为网络安全领域的一个重要问题。信息抽取技术,包 括命名实体识别、实体和关系抽取,可以有效地将非结构化的网络威胁情 报转化为结构化的信息,以提高利用率。
实体关系抽取一直是经典而又富有挑战性的任务,在过去二十多年的 研究发展下取得了很多阶段性的突破。目前实体关系抽取的研究成果主要 应用在知识图谱构建、自动问答系统、机器翻译和海量文本摘要等领域。 从早期基于模式匹配的关系抽取到后来基于机器学习的关系抽取,实体关 系抽取得到了广泛的关注。目前随着以深度学习为基础的人工智能潮流席 卷全球,自然语言处理也取得了突破进展。深度学习下实体关系抽取有效改善了传统标注工具的自身缺陷,取得了良好的效果,并成为近些年研究 的热点与关键。然而实体关系抽取至今仍面临许多挑战,如实体语义关系 的复杂性、句与句之间实体关系的模糊性、数据规模不足与模型学习能力 的冲突等都制约着实体关系抽取的发展。
与信息抽取在医学、金融和普通领域的成功应用相比,网络威胁情报 中的三元组抽取技术还处于起步阶段。由于网络安全领域涉及的实体包括 攻击组织、攻击方法、漏洞、恶意软件等特定类别,关系提取的目的是匹 配这些与网络威胁情报相关的特定实体,现有的信息抽取模型不能直接适 用于网络安全领域中实体和关系的抽取。
目前,面向网络威胁情报的深度学习有监督实体关系抽取可以分为:1) 流水线方法;2)联合学习方法。这两种方法都基于卷积神经网络 (Convolutional Neural Network,CNN)、长短期记忆网络(Long Short Term Memory Network,LSTM)进行扩展优化,如图1所示。
在流水线方法中,即首先通过命名实体识别获得与网络安全相关的实 体,然后根据已有的实体关系预测候选实体对之间的关系。基于CNN模 型的扩展包括在CNN基础之上增加类别排名信息、依存分析树、注意力 机制;基于LSTM模型的扩展包括在LSTM基础之上增加最短依存路径 (SDP)或将LSTM与CNN结合。然而,流水线方法存在错误累积传播、 忽视子任务间关系依赖、产生冗余实体等问题,实体识别与关系抽取之间 的语义关系没有得到充分利用,降低了抽取的准确性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210006117.5/2.html,转载请声明来源钻瓜专利网。