[发明专利]基于语义分析的威胁情报提取方法和系统在审
申请号: | 202210892597.X | 申请日: | 2022-07-27 |
公开(公告)号: | CN115329770A | 公开(公告)日: | 2022-11-11 |
发明(设计)人: | 李新;胡文波;段凯 | 申请(专利权)人: | 天津市国瑞数码安全系统股份有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/35;G06F16/36;G06N3/04;G06F16/28;G06F16/26 |
代理公司: | 北京秉文同创知识产权代理事务所(普通合伙) 11859 | 代理人: | 孙富利;张文武 |
地址: | 300392 天津市西青区华*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语义 分析 威胁 情报 提取 方法 系统 | ||
本发明提供一种基于语义分析的威胁情报提取方法和系统,由于在现有的威胁情报分析的基础上,通过改进使用两种网络结构得到增强的语义特征,以及改进实体抽取的嵌入层处理,可以准确标注实体类别和边界,再改进LSTM层实现得到隐藏状态,进一步得到隐藏状态对应的语义特征,克服了现有的关系抽取通常仅使用单一的深度学习模型,无法捕获完整的语义特征,以及实体之间存在有大量的隐式关系,现有的模型难以有效捕获隐式关系的语义特征的问题。
技术领域
本申请涉及网络安全技术领域,尤其涉及一种基于语义分析的威胁情报提取方法和系统。
背景技术
实体是威胁情报分析中最基本的元素,其描述了与威胁相关的具体信息。威胁情报的提取是基于实体的准确识别和提取实现的。实体的识别离不开关系的抽取,关系抽取意图在从非结构化和半结构化数据中识别实体之间所具有的某种语义关系。然而现有的关系抽取通常仅使用单一的深度学习模型,无法捕获完整的语义特征。同时,实体之间存在有大量的隐式关系,现有的模型难以有效捕获隐式关系的语义特征。
因此,急需一种针对性的基于语义分析的威胁情报提取方法和系统。
发明内容
本发明的目的在于提供一种基于语义分析的威胁情报提取方法和系统,在现有的威胁情报分析的基础上,通过改进使用两种网络结构得到增强的语义特征,以及改进实体抽取的嵌入层处理,可以准确标注实体类别和边界,再改进LSTM层实现得到隐藏状态,进一步得到隐藏状态对应的语义特征。
第一方面,本申请提供一种基于语义分析的威胁情报提取方法,所述方法包括:
从不同的传感设备、中转设备、开源平台和网络侧设备处采集状态信息、域名信息、链接地址和报文数据,作为开源威胁情报数据;
对所述开源威胁情报数据进行初始化处理,基于主题、关键字、长度作为特征,采用支持向量机算法进行文本分类,滤除所述开源威胁情报数据中的噪音数据,并以句子为单位进行分割处理,自动标注标识信息,得到威胁情报库;
从所述威胁情报库中按照预定顺序提取语句,分别输入实体抽取模块和语义分析模块;
所述语义分析模块将输入的所述语句按单词降低维度,并与连续空间中的向量一一映射,作为词级别的语义特征,得到词特征;
根据前向和后向分别两次调用GRU网络结构,将所述词特征输入两次调用的GRU网络结构,将两次的输出结果拼接后得到当前的全局语义信息,将所述词特征输入CNN网络结构,得到当前的局部语义信息;
将所述全局语义信息和局部语义信息按时间进行融合,得到增强的语义特征;
所述实体抽取模块根据标注,将隶属的开头单词、实体后续单词和非实体单词送入不同的嵌入层,经过处理后送入对应的LSTM层,所述处理包括输入的所述语句降低维度检测,并将隶属的开头单词添加指引,指向对应表示实体结束的单词,所述指向依据降低维度检测的损失函数,通过求解该损失函数的最优解,得到表示实体结束的单词;
经过相邻的所述LSTM层相互交换向量后,计算得到当前的隐藏向量,所述隐藏向量分为前向隐藏向量和后向隐藏向量,将所述前向隐藏向量与后向隐藏向量连接起来,得到隐藏状态,再将所述隐藏状态分别送入解码层和所述语义分析模块,所述解码层引入标签的转移概率算法,将所述标注作为标签项,根据计算的概率值,预测得到有关实体的映射关系,所述语义分析模块输出隐藏状态对应的第二语义特征;
将所述有关实体的映射关系、第二语义特征和所述增强的语义特征一起录入可视化模块,展示威胁情报实体的知识图谱,提供给用户按实体关系或语义查询提取。
结合第一方面,在第一方面第一种可能的实现方式中,所述采集包括根据信息来源的历史记录,对不同的信息来源给出了不同的评分;还包括根据预先设置的情报类型,侧重采集所述情报类型对应的信息,动态将与所述情报类型相关度低的信息设置为冗余信息,在初始化处理中清除。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津市国瑞数码安全系统股份有限公司,未经天津市国瑞数码安全系统股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210892597.X/2.html,转载请声明来源钻瓜专利网。