[发明专利]一种面向网络安全领域的命名实体识别方法有效
申请号: | 202010464122.1 | 申请日: | 2020-05-27 |
公开(公告)号: | CN111709241B | 公开(公告)日: | 2023-03-28 |
发明(设计)人: | 秦涛;李致远;王平辉;管晓宏 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06F40/126;G06F40/117;G06F40/216;G06F16/951;G06N3/045;G06N3/0442 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 贺小停 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 网络安全 领域 命名 实体 识别 方法 | ||
本发明公开了一种面向网络安全领域的命名实体识别方法。本发明由模型训练和样本选择两个阶段组成。第一阶段:通过预训练语言模型ALBERT训练得到包含语义信息且动态变化的初始字符向量,将其送入Bi‑LSTM+CRF的网络中训练,输出输入文本序列概率最大的标签序列。第二阶段:基于第一阶段训练得到的模型,采用主动学习和自学习相结合的方式,选择有标记价值和训练价值的网络安全文本数据进行人工和机器标记,添加至已有标记本文数据后迭代训练上述模型。本发明不仅显著提高了网络安全实体识别的准确率,而且有效缓解了网络安全领域标记语料匮乏、标记成本高等难题。
技术领域
本发明涉及网络安全文本数据自然语言处理领域,具体涉及一种面向网络安全领域的命名实体识别方法。
背景技术
随着互联网技术和人工智能技术的快速发展和广泛应用,互联网上的信息量呈现出爆炸式的指数级增长,当今社会已经进入信息化和大数据时代。网络信息技术快速发展的同时,网络环境也变得日趋复杂,大量非法组织和个人利用病毒或漏洞通过互联网向多领域目标广泛、持续地发动网络攻击,以窃取相关机密信息或造成相关破坏。当前,人们生产生活对网络信息的依赖性不断增强,网络攻击事件的数量还将持续增多,影响范围也将更加广泛。
为了确保网络空间安全,政府部门、相关企业、网络安全从业人员根据网络监测系统收集得到的网络威胁信息,发布了大量的网络安全分析报告,这些报告中蕴含着难得的专家知识,但是这些知识是典型的碎片化知识,远远没有得到充分利用,这些数据需要经过分析处理,形成结构化数据才具有更强的决策支持力,而利用智能化方法对这些海量的安全分析报告进行专家知识抽取和组织是可行的数据处理方法之一。通过对异质数据中知识点的抽取和组织分析,构建符合特定需求的网络安全事件应对方案,大幅度提升安全分析报告中专家知识的可利用性,利用海量的网络安全专家知识,提升本地网络管理者的工作效率和安防能力。
现有的知识抽取方法主要分为基于规则和词典的方法、基于机器学习的方法和基于深度学习的方法。基于规则和词典的方法识别准确率较高,但是构建领域规则和词典将耗费大量人力、且适用性及迁移性差;基于机器学习的方法,由于网络安全文本数据存在大量专业词汇、中英文混合词汇、一词多义词汇及未登录词汇,人为地构建特征通用性不强且性能依赖训练样本规模;基于深度学习的方法可以实现自动特征提取,但是传统的深度神经网络不能充分地提取有效特征,同时需要大量的标记语料作为训练数据,对网络安全文本数据进行标记时需要耗费大量财力和人力,训练成本极大。
发明内容
本发明的目的在于提供一种面向网络安全领域的命名实体识别方法,以解决上述问题。
为实现上述目的,本发明采用以下技术方案:
一种面向网络安全领域的命名实体识别方法,包括以下步骤:
步骤1,根据爬虫程序,分别从漏洞信息库、安全论坛和企业应急响应中心获取相关的网络安全文本数据并存入数据库;
步骤2,使用BIO标记模式对网络安全文本数据按一定比例进行小规模标记,标记文本数据用于训练网络安全命名实体识别初始模型;其余大规模未标记文本数据用于模型的主动学习和自学习阶段;
步骤3,根据ALBERT预训练语言模型,针对一个包含了大量互不相同的中英文字符、标点符号及特殊字符的词汇表文件构建了字典映射,以句子为单位,根据字典映射将输入文本序列x=(x1,x2,…,xn)转化为输入id序列;特殊字符为[CLS]和[SEP],分别表示句子的开始和结束;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010464122.1/2.html,转载请声明来源钻瓜专利网。