[发明专利]一种基于BERT-BiGRU的恶意URL检测方法有效

专利信息
申请号: 202110201467.2 申请日: 2021-02-23
公开(公告)号: CN112926303B 公开(公告)日: 2023-06-27
发明(设计)人: 任勋益;杨晓晓 申请(专利权)人: 南京邮电大学
主分类号: G06F40/205 分类号: G06F40/205;G06N3/0455;G06N3/08
代理公司: 南京瑞弘专利商标事务所(普通合伙) 32249 代理人: 秦秋星
地址: 210012 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 bert bigru 恶意 url 检测 方法
【说明书】:

发明提出一种基于BERT‑BiGRU的恶意URL检测的方法,解决当前对于恶意URL检测识别准确度不高的问题。本发明首先使用BERT模型的Transformer特征提取器,代替了传统常用的CNN或者RNN的固有模式,利用其能够提取词向量的动态特征特点以及其本身并行计算的优点,此外由于其多头自注意力机制,可以获得相关性更强的URL文本特征。然后将训练得到的特征向量,输入到BiGRU网络结构,由于其双向各训练一个GRU模型,使得序列中每个词完整依赖上下文信息,接着把神经网络向量拼接之后得到的结果向量,通过全连接层结合softmax分类器,实现URL分类。本发明通过这些模型方法的结合应用,能够提高URL分类的准确性和稳定性,具有良好的实施性和实效性。

技术领域

本发明提出了一种基于BERT和BiGRU的恶意URL识别方法,属于网络安全,自然语言处理,深度学习,神经网络等交叉技术领域。

背景技术

近年来,文本分类是自然语言处理领域中的一个重要研究课题,具有重要的理论意义与实际应用价值。在网络安全中,运用优秀的自然语言处理算法对网络中的恶意URL分类,极具现实意义。

随着信息技术的高速发展,以网络作为应用的服务、信息的开放、信息资源与数据共享等服务深入生活的各个角落,日益广泛应用于生活的点点滴滴中,如今全球范围内爆发信息革命,机器学习和深度学习正在迅速发展,带来极大便利同时,网络安全问题也开始逐渐复杂了起来。无论是从企业还是个人来说,其隐私信息和安全信息,都已经成为网络信息安全的保障性问题。

目前在恶意URL检测方式上,常用的分析方法主要分为基于黑名单和机器学习方式两大类。其中较为传统的黑名单技术已经逐渐无法适用于复杂且多变的原始URL句子,在一些传统机器学习算法中,有使用Logistic回归分析、决策树模型、朴素贝叶斯分类器与支持向量机,这些方法在实际应用中均有利弊。在近年大热的深度学习中,循环神经网络(RNN)是其中较有代表性的网络之一,循环神经网络(RNN)算法通过对输入的时序信息进行处理,充分挖掘语义信息,提取特征。基于这一特点,在文本分类领域,循环神经网络有着广泛的运用。此后基于RNN而衍生出的LSTM和GRU模型,同样获得了更好的效果。

然而究其本质,因为RNN系列模型都依赖于序列的前一状态,不能够并行运算,所以在商业化或者工业化的计算效率上,要想获得更大的突破,还需要进行大量的研究工作。

发明内容

技术问题:本发明使用BERT模型的Transformer编码器,从原始URL句子中提取特征,充分挖掘句子的文本信息,其次使用结构简单高效的BiGRU单元进行完整上下文学习,提高对恶意URL识别的准确度。

技术方案:本发明的一种基于BERT-BiGRU的恶意URL检测方法系统包括以下步骤:

一种基于BERT-BiGRU的恶意URL检测方法,包括以下步骤:

步骤1)输入URL数据集作为分类任务中的集合,并且针对数据集中重复或者格式紊乱的数据,进行相应的处理;

步骤2)使用步骤1处理后的数据集,将其输入特征处理器Transformer中,利用多头自注意力机制动态地生成不同连接的权重;首先计算self-attention,对同一个句子的embedding变换得到Query向量,Key向量,Value向量,之后计算Attention Score;多头注意力机制即把每一个self-attention的输出结果拼接而成,最后Transformer输出融合多头注意力机制的词向量特征矩阵;

步骤3)训练一个BiGRU网络,将预处理获得的向量输入该网络中,BiGRU通过更新门与重置门可保留文本重要特征,确保上下文关系不会丢失;

步骤4)最后一个构建softmax分类器,把BiGRU的结果送入其中,输出最终分类标签。

所述步骤1)具体如下:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110201467.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top