[发明专利]网络安全威胁知识抽取模型的训练方法和装置在审
申请号: | 202310847311.0 | 申请日: | 2023-07-11 |
公开(公告)号: | CN116579426A | 公开(公告)日: | 2023-08-11 |
发明(设计)人: | 王毅然;贾福凯;代姝婷 | 申请(专利权)人: | 航天宏康智能科技(北京)有限公司 |
主分类号: | G06N5/022 | 分类号: | G06N5/022;G06N3/0455;G06N3/08;G06F16/36;G06F16/35 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 王兆赓;苏银虹 |
地址: | 100048*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络安全 威胁 知识 抽取 模型 训练 方法 装置 | ||
1.一种网络安全威胁知识抽取模型的训练方法,其特征在于,所述训练方法包括:
通过网络安全威胁领域本体模型对预定数量的文本中的三元组进行标注,得到多个标注文本,其中,从预先获取的网络安全威胁领域的文本数据集确定网络安全威胁领域术语,并且基于确定的网络安全威胁领域术语,构建所述网络安全威胁领域本体模型;
将每个标注文本作为训练样本输入网络安全威胁知识抽取模型,并利用所述网络安全威胁知识抽取模型预测所述训练样本中的三元组;
基于预测结果计算损失函数的值,并根据所述损失函数的值调整所述网络安全威胁知识抽取模型的参数,从而对所述网络安全威胁知识抽取模型进行训练。
2.如权利要求1所述的训练方法,其特征在于,所述文本数据集为非结构化数据,其中,所述从预先获取的网络安全威胁领域的文本数据集确定网络安全威胁领域术语包括:
对所述文本数据集进行预处理,以去除所述文本数据集中不具有实际语义的字符;
对预处理后的文本数据集进行分词处理,得到多个分词;
对所述多个分词进行词频统计,并根据所述词频统计的结果,从所述多个分词中确定网络安全威胁领域术语。
3.如权利要求2所述的训练方法,其特征在于,所述对所述多个分词进行词频统计,并根据所述词频统计的结果,从所述多个分词中确定网络安全威胁领域术语包括:
对所述多个分词进行词频统计,得到每个分词的词频;
按照所述词频,对所述多个分词进行降序排序,得到排序后的分词;
将所述排序后的分词中排序靠前的预设比例的分词确定为网络安全威胁术语。
4.如权利要求1所述的训练方法,其特征在于,所述基于确定的网络安全威胁领域术语,构建所述网络安全威胁领域本体模型包括:
基于确定的网络安全威胁领域术语,确定网络安全威胁领域的类和类层次结构,其中,所述类层次结构表示类与子类的分层结构;
基于确定的类和类层次结构,确定类的数据属性和类与类之间的关系;
基于确定的类、类层次结构、类的数据属性和类与类之间的关系,得到网络安全威胁领域本体模型。
5.如权利要求4所述的训练方法,其特征在于,所述基于确定的网络安全威胁领域术语,构建所述网络安全威胁领域本体模型还包括:
确定得到的网络安全威胁领域本体模型是否符合预设要求;
在所述得到的网络安全威胁领域本体模型不符合预设要求的情况下,重新获取文本数据集,并基于重新获取的文本数据集构建网络安全威胁领域本体模型,直至重新构建的网络安全威胁领域本体模型符合预设要求。
6.如权利要求1所述的训练方法,其特征在于,所述网络安全威胁知识抽取模型包括编码器、第一分类器和第二分类器,所述三元组包括主体、客体和关系,
其中,所述利用所述网络安全威胁知识抽取模型预测所述训练样本中的三元组的步骤包括:
利用所述编码器,将所述训练样本转换为编码序列,其中,所述编码序列包括多个编码向量;
利用所述第一分类器,基于所述编码序列预测所述训练样本中的主体;
确定预测的所述训练样本中的主体的首字和尾字所对应的编码向量,并且根据所述首字和尾字所对应的编码向量,对所述编码序列进行归一化处理;
利用所述第二分类器,基于归一化处理后的编码序列预测所述训练样本中的主体所对应的客体和关系。
7.如权利要求6所述的训练方法,其特征在于,所述将所述训练样本转换为编码序列的步骤包括:
根据预设字典,将所述训练样本中的文字转换为对应的数字,得到数字序列,其中,所述预设字典中的每个文字各自对应一个数字;
将所述数字序列中的每个数字分别转换为编码向量,得到所述编码序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于航天宏康智能科技(北京)有限公司,未经航天宏康智能科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310847311.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能定位自动起重机
- 下一篇:一种寻找最少失效链路使得路由不可达的方法