[发明专利]域名分类方法、设备及计算机可读存储介质在审
申请号: | 202110305374.4 | 申请日: | 2021-03-22 |
公开(公告)号: | CN113076453A | 公开(公告)日: | 2021-07-06 |
发明(设计)人: | 张伟哲;董国忠;张宾;乔延臣;艾建文;谭帅帅;霍鹏磊 | 申请(专利权)人: | 鹏城实验室 |
主分类号: | G06F16/906 | 分类号: | G06F16/906;G06F16/951;G06N20/00 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 陈小娟 |
地址: | 518000 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 域名 分类 方法 设备 计算机 可读 存储 介质 | ||
1.一种域名分类方法,其特征在于,所述域名分类方法包括:
获取待分类域名,提取所述待分类域名的页面标签特征;
将所述页面标签特征输入预训练的具有递归正则化功能的目标域名分类模型,其中,所述目标域名分类模型中已定义具有层次结构的域名类别体系;
基于所述目标域名分类模型,分析所述页面标签特征相关的若干域名类型对应在所述域名类别体系上的层次依赖关系;
利用所述层级依赖关系并结合正则化的递归结构进行模型参数估计,以基于模型参数估计后的域名分类模型得到所述待分类域名的目标分类标签。
2.如权利要求1所述的域名分类方法,其特征在于,所述基于所述目标域名分类模型,分析所述页面标签特征相关的若干域名类型对应在所述域名类别体系上的层次依赖关系的步骤包括:
使用所述目标域名分类模型中的凸损失函数对若干所述域名类型进行层次分类,以得到所述层次依赖关系。
3.如权利要求2所述的域名分类方法,其特征在于,所述利用所述层级依赖关系并结合正则化的递归结构进行模型参数估计的步骤包括:
基于所述目标域名分类模型中的递归正则化方式,将所述层次依赖关系融入模型参数的正则化结构中;
基于所述目标域名分类模型中的凸损失函数、调节参数以及所述正则化结构进行模型参数估计。
4.如权利要求1所述的域名分类方法,其特征在于,所述获取待分类域名的步骤之前,还包括:
爬取指定网站中的域名分页列表,遍历所述域名分页列表中每一域名分页获取样本域名地址、样本域名类型与样本域名描述信息,以作为域名样本信息;
根据所述样本域名地址与所述样本域名类型,将域名类型划分为大类与亚类两个层次,以定义所述域名类别体系;
根据所述域名类别体系将所述域名样本信息构建为域名分类数据集,并基于神经网络模型架构对所述域名分类数据集进行训练,得到所述目标域名分类模型,其中,所述目标域名分类模型包括输入层、嵌入层、编码层和输出层。
5.如权利要求4所述的域名分类方法,其特征在于,所述基于神经网络模型架构对所述域名分类数据集进行训练,得到所述目标域名分类模型的步骤包括:
将所述域名分类数据集按照预设比例随机切分为训练集、验证集和测试集;
对所述训练集进行训练,得到初始域名分类模型;
利用所述验证集验证所述初始域名分类模型是否过拟合;
若是,则判断所述初始域名分类模型在所述验证集上的正确率是否满足预设第一标准;
若是,则判断所述初始域名分类模型在所述测试集上的正确率是否满足预设第二标准;
若是,则将所述初始域名分类模型作为所述目标域名分类模型。
6.如权利要求5所述的域名分类方法,其特征在于,所述利用所述验证集验证所述初始域名分类模型是否过拟合的步骤之后,还包括:
若否,则继续对所述初始域名分类模型进行训练;
所述判断所述初始域名分类模型在所述验证集上的正确率是否满足预设第一标准的步骤之后,还包括:
若否,则调整所述初始域名分类模型的模型参数,并重新训练模型参数调整后的初始域名分类模型;
所述判断所述初始域名分类模型在所述测试集上的正确率是否满足预设第二标准的步骤之后,还包括:
若否,则对所述域名分类数据集进行重划分,以基于重划分后的域名分类数据集进行模型训练。
7.如权利要求5所述的域名分类方法,其特征在于,所述对所述训练集进行训练,得到初始域名分类模型的步骤包括:
在所述输入层,将所述样本域名与所述样本域名描述信息转换为特定形式的输入文本序列,以将所述输入文本序列输入所述嵌入层;
在所述嵌入层,对所述输入文本序列进行词嵌入得到词嵌入结果,以将所述词嵌入结果输入所述编码层;
在所述编码层,利用预设词袋模型捕获所述词嵌入结果的局部上下文信息,以供预设线性分类器基于所述局部上下文信息得到初始分类结果,将所述初始分类结果输入所述输出层;
在所述输出层,基于所述初始分类结果进行模型参数估计,以得到所述初始域名分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鹏城实验室,未经鹏城实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110305374.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种抛光打磨的设备
- 下一篇:一种光电催化剂及其制备方法