[发明专利]一种基于BERT-BiGRU的恶意URL检测方法有效

申请号：	202110201467.2	申请日：	2021-02-23
公开（公告）号：	CN112926303B	公开（公告）日：	2023-06-27
发明（设计）人：	任勋益;杨晓晓	申请（专利权）人：	南京邮电大学
主分类号：	G06F40/205	分类号：	G06F40/205;G06N3/0455;G06N3/08
代理公司：	南京瑞弘专利商标事务所(普通合伙) 32249	代理人：	秦秋星
地址：	210012 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 bert bigru 恶意 url 检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提出一种基于BERT‑BiGRU的恶意URL检测的方法，解决当前对于恶意URL检测识别准确度不高的问题。本发明首先使用BERT模型的Transformer特征提取器，代替了传统常用的CNN或者RNN的固有模式，利用其能够提取词向量的动态特征特点以及其本身并行计算的优点，此外由于其多头自注意力机制，可以获得相关性更强的URL文本特征。然后将训练得到的特征向量，输入到BiGRU网络结构，由于其双向各训练一个GRU模型，使得序列中每个词完整依赖上下文信息，接着把神经网络向量拼接之后得到的结果向量，通过全连接层结合softmax分类器，实现URL分类。本发明通过这些模型方法的结合应用，能够提高URL分类的准确性和稳定性，具有良好的实施性和实效性。

技术领域

本发明提出了一种基于BERT和BiGRU的恶意URL识别方法，属于网络安全，自然语言处理，深度学习，神经网络等交叉技术领域。

背景技术

近年来，文本分类是自然语言处理领域中的一个重要研究课题，具有重要的理论意义与实际应用价值。在网络安全中，运用优秀的自然语言处理算法对网络中的恶意URL分类，极具现实意义。

随着信息技术的高速发展，以网络作为应用的服务、信息的开放、信息资源与数据共享等服务深入生活的各个角落，日益广泛应用于生活的点点滴滴中，如今全球范围内爆发信息革命，机器学习和深度学习正在迅速发展，带来极大便利同时，网络安全问题也开始逐渐复杂了起来。无论是从企业还是个人来说，其隐私信息和安全信息，都已经成为网络信息安全的保障性问题。

目前在恶意URL检测方式上，常用的分析方法主要分为基于黑名单和机器学习方式两大类。其中较为传统的黑名单技术已经逐渐无法适用于复杂且多变的原始URL句子，在一些传统机器学习算法中，有使用Logistic回归分析、决策树模型、朴素贝叶斯分类器与支持向量机，这些方法在实际应用中均有利弊。在近年大热的深度学习中，循环神经网络(RNN)是其中较有代表性的网络之一，循环神经网络(RNN)算法通过对输入的时序信息进行处理，充分挖掘语义信息，提取特征。基于这一特点，在文本分类领域，循环神经网络有着广泛的运用。此后基于RNN而衍生出的LSTM和GRU模型，同样获得了更好的效果。

然而究其本质，因为RNN系列模型都依赖于序列的前一状态，不能够并行运算，所以在商业化或者工业化的计算效率上，要想获得更大的突破，还需要进行大量的研究工作。

发明内容

技术问题：本发明使用BERT模型的Transformer编码器，从原始URL句子中提取特征，充分挖掘句子的文本信息，其次使用结构简单高效的BiGRU单元进行完整上下文学习，提高对恶意URL识别的准确度。

技术方案：本发明的一种基于BERT-BiGRU的恶意URL检测方法系统包括以下步骤：

一种基于BERT-BiGRU的恶意URL检测方法，包括以下步骤：

步骤1)输入URL数据集作为分类任务中的集合，并且针对数据集中重复或者格式紊乱的数据，进行相应的处理；

步骤2)使用步骤1处理后的数据集，将其输入特征处理器Transformer中，利用多头自注意力机制动态地生成不同连接的权重；首先计算self-attention，对同一个句子的embedding变换得到Query向量，Key向量，Value向量，之后计算Attention Score；多头注意力机制即把每一个self-attention的输出结果拼接而成，最后Transformer输出融合多头注意力机制的词向量特征矩阵；

步骤3)训练一个BiGRU网络，将预处理获得的向量输入该网络中，BiGRU通过更新门与重置门可保留文本重要特征，确保上下文关系不会丢失；

步骤4)最后一个构建softmax分类器，把BiGRU的结果送入其中，输出最终分类标签。

所述步骤1)具体如下：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京邮电大学，未经南京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110201467.2/2.html，转载请声明来源钻瓜专利网。

上一篇：一种空心结构多级孔道Beta分子筛的制备方法
下一篇：用于电池模组的端板和电池模组

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于BERT-BiGRU的恶意URL检测方法有效

专利文献下载