[发明专利]一种基于BERT-BiGRU的恶意URL检测方法有效
申请号: | 202110201467.2 | 申请日: | 2021-02-23 |
公开(公告)号: | CN112926303B | 公开(公告)日: | 2023-06-27 |
发明(设计)人: | 任勋益;杨晓晓 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06N3/0455;G06N3/08 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 秦秋星 |
地址: | 210012 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 bert bigru 恶意 url 检测 方法 | ||
本发明提出一种基于BERT‑BiGRU的恶意URL检测的方法,解决当前对于恶意URL检测识别准确度不高的问题。本发明首先使用BERT模型的Transformer特征提取器,代替了传统常用的CNN或者RNN的固有模式,利用其能够提取词向量的动态特征特点以及其本身并行计算的优点,此外由于其多头自注意力机制,可以获得相关性更强的URL文本特征。然后将训练得到的特征向量,输入到BiGRU网络结构,由于其双向各训练一个GRU模型,使得序列中每个词完整依赖上下文信息,接着把神经网络向量拼接之后得到的结果向量,通过全连接层结合softmax分类器,实现URL分类。本发明通过这些模型方法的结合应用,能够提高URL分类的准确性和稳定性,具有良好的实施性和实效性。
技术领域
本发明提出了一种基于BERT和BiGRU的恶意URL识别方法,属于网络安全,自然语言处理,深度学习,神经网络等交叉技术领域。
背景技术
近年来,文本分类是自然语言处理领域中的一个重要研究课题,具有重要的理论意义与实际应用价值。在网络安全中,运用优秀的自然语言处理算法对网络中的恶意URL分类,极具现实意义。
随着信息技术的高速发展,以网络作为应用的服务、信息的开放、信息资源与数据共享等服务深入生活的各个角落,日益广泛应用于生活的点点滴滴中,如今全球范围内爆发信息革命,机器学习和深度学习正在迅速发展,带来极大便利同时,网络安全问题也开始逐渐复杂了起来。无论是从企业还是个人来说,其隐私信息和安全信息,都已经成为网络信息安全的保障性问题。
目前在恶意URL检测方式上,常用的分析方法主要分为基于黑名单和机器学习方式两大类。其中较为传统的黑名单技术已经逐渐无法适用于复杂且多变的原始URL句子,在一些传统机器学习算法中,有使用Logistic回归分析、决策树模型、朴素贝叶斯分类器与支持向量机,这些方法在实际应用中均有利弊。在近年大热的深度学习中,循环神经网络(RNN)是其中较有代表性的网络之一,循环神经网络(RNN)算法通过对输入的时序信息进行处理,充分挖掘语义信息,提取特征。基于这一特点,在文本分类领域,循环神经网络有着广泛的运用。此后基于RNN而衍生出的LSTM和GRU模型,同样获得了更好的效果。
然而究其本质,因为RNN系列模型都依赖于序列的前一状态,不能够并行运算,所以在商业化或者工业化的计算效率上,要想获得更大的突破,还需要进行大量的研究工作。
发明内容
技术问题:本发明使用BERT模型的Transformer编码器,从原始URL句子中提取特征,充分挖掘句子的文本信息,其次使用结构简单高效的BiGRU单元进行完整上下文学习,提高对恶意URL识别的准确度。
技术方案:本发明的一种基于BERT-BiGRU的恶意URL检测方法系统包括以下步骤:
一种基于BERT-BiGRU的恶意URL检测方法,包括以下步骤:
步骤1)输入URL数据集作为分类任务中的集合,并且针对数据集中重复或者格式紊乱的数据,进行相应的处理;
步骤2)使用步骤1处理后的数据集,将其输入特征处理器Transformer中,利用多头自注意力机制动态地生成不同连接的权重;首先计算self-attention,对同一个句子的embedding变换得到Query向量,Key向量,Value向量,之后计算Attention Score;多头注意力机制即把每一个self-attention的输出结果拼接而成,最后Transformer输出融合多头注意力机制的词向量特征矩阵;
步骤3)训练一个BiGRU网络,将预处理获得的向量输入该网络中,BiGRU通过更新门与重置门可保留文本重要特征,确保上下文关系不会丢失;
步骤4)最后一个构建softmax分类器,把BiGRU的结果送入其中,输出最终分类标签。
所述步骤1)具体如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110201467.2/2.html,转载请声明来源钻瓜专利网。
- 基于Smi2Vec的BiGRU药物毒性预测系统及预测方法
- 基于RoBERTa-BiGRU-LAN模型的中文命名实体识别方法及装置
- 一种基于ERNIE-BiGRU的中文文本分类方法
- 基于深度学习的预测化合物蛋白质亲和力新型编码方案、计算机设备、存储介质
- 一种基于BiGRU的智能电表计量模块故障预测与诊断方法
- 基于边缘注意力机制的预测化合物蛋白质亲和力方法、计算机设备、存储介质
- 一种预测化合物蛋白质亲和力的新型深度学习模型、计算机设备、存储介质
- 基于单独注意力机制的预测化合物蛋白质亲和力方法、计算机设备、存储介质
- 一种基于ATAE-BiGRU的文本方面情感分类方法及系统
- 一种基于自注意力机制和BiGRU的文本分类方法