[发明专利]基于语义分析的威胁情报提取方法和系统在审
申请号: | 202210892597.X | 申请日: | 2022-07-27 |
公开(公告)号: | CN115329770A | 公开(公告)日: | 2022-11-11 |
发明(设计)人: | 李新;胡文波;段凯 | 申请(专利权)人: | 天津市国瑞数码安全系统股份有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/35;G06F16/36;G06N3/04;G06F16/28;G06F16/26 |
代理公司: | 北京秉文同创知识产权代理事务所(普通合伙) 11859 | 代理人: | 孙富利;张文武 |
地址: | 300392 天津市西青区华*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语义 分析 威胁 情报 提取 方法 系统 | ||
1.一种基于语义分析的威胁情报提取方法,其特征在于,所述方法包括:
从不同的传感设备、中转设备、开源平台和网络侧设备处采集状态信息、域名信息、链接地址和报文数据,作为开源威胁情报数据;
对所述开源威胁情报数据进行初始化处理,基于主题、关键字、长度作为特征,采用支持向量机算法进行文本分类,滤除所述开源威胁情报数据中的噪音数据,并以句子为单位进行分割处理,自动标注标识信息,得到威胁情报库;
从所述威胁情报库中按照预定顺序提取语句,分别输入实体抽取模块和语义分析模块;
所述语义分析模块将输入的所述语句按单词降低维度,并与连续空间中的向量一一映射,作为词级别的语义特征,得到词特征;
根据前向和后向分别两次调用GRU网络结构,将所述词特征输入两次调用的GRU网络结构,将两次的输出结果拼接后得到当前的全局语义信息,将所述词特征输入CNN网络结构,得到当前的局部语义信息;
将所述全局语义信息和局部语义信息按时间进行融合,得到增强的语义特征;
所述实体抽取模块根据标注,将隶属的开头单词、实体后续单词和非实体单词送入不同的嵌入层,经过处理后送入对应的LSTM层,所述处理包括输入的所述语句降低维度检测,并将隶属的开头单词添加指引,指向对应表示实体结束的单词,所述指向依据降低维度检测的损失函数,通过求解该损失函数的最优解,得到表示实体结束的单词;
经过相邻的所述LSTM层相互交换向量后,计算得到当前的隐藏向量,所述隐藏向量分为前向隐藏向量和后向隐藏向量,将所述前向隐藏向量与后向隐藏向量连接起来,得到隐藏状态,再将所述隐藏状态分别送入解码层和所述语义分析模块,所述解码层引入标签的转移概率算法,将所述标注作为标签项,根据计算的概率值,预测得到有关实体的映射关系,所述语义分析模块输出隐藏状态对应的第二语义特征;
将所述有关实体的映射关系、第二语义特征和所述增强的语义特征一起录入可视化模块,展示威胁情报实体的知识图谱,提供给用户按实体关系或语义查询提取。
2.根据权利要求1所述的方法,其特征在于:所述采集包括根据信息来源的历史记录,对不同的信息来源给出了不同的评分;还包括根据预先设置的情报类型,侧重采集所述情报类型对应的信息,动态将与所述情报类型相关度低的信息设置为冗余信息,在初始化处理中清除。
3.根据权利要求1所述的方法,其特征在于:所述采集包括提取要素,判断发现的要素是否与当前热门安全事件相关,如果是则在要素中标记热门安全事件摘要,并将多个与该热门安全事件相关的要素进行关联,进行数据融合。
4.根据权利要求2或3任一项所述的方法,其特征在于:所述指向对应表示实体结束的单词后,确定实体边界,用属性加密算法隔离不同的实体边界,实现不同的实体边界访问控制,按所述实体边界进行查询和判断报警。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津市国瑞数码安全系统股份有限公司,未经天津市国瑞数码安全系统股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210892597.X/1.html,转载请声明来源钻瓜专利网。