[发明专利]基于SVM机器学习的恶意域名检测方法在审
申请号: | 201910971102.0 | 申请日: | 2019-10-14 |
公开(公告)号: | CN110866611A | 公开(公告)日: | 2020-03-06 |
发明(设计)人: | 温延龙;范渊 | 申请(专利权)人: | 杭州安恒信息技术股份有限公司 |
主分类号: | G06N20/10 | 分类号: | G06N20/10;H04L29/06;H04L29/12 |
代理公司: | 杭州中成专利事务所有限公司 33212 | 代理人: | 金祺;周世骏 |
地址: | 310051 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 svm 机器 学习 恶意 域名 检测 方法 | ||
本发明提供一种基于SVM机器学习的恶意域名检测方法:包括以下步骤:收集数据;确定需要的维度;获得收集数据的维度,作为训练集数据;利用SVM模型对训练集数据进行训练生成模型;测试训练结果调整准确率。本发明是一种基于SVM算法,在不依赖DNS数据的前提下,通过收集域名的各种维度的数据作为机器学习的样本,进行机器学习模型的训练,从而计算出模型来识别恶意域名。
技术领域
本发明一种基于SVM机器学习的恶意域名检测方法基于SVM算法,在不依赖DNS数据的前提下,通过收集域名的各种维度的数据作为机器学习的样本,进行机器学习模型的训练,从而计算出模型来识别恶意域名。
背景技术
随着威胁情报的不断发展,我们会很容易获取到很多的开源情报,其中包含恶意域名和IP,但是这些威胁情报域名中包含了很多误报数据,例如不少正规中小网站、过期的域名、甚至Alexa排名一千以内的都被列为恶意域名。这使得我们在使用威胁情报的时候产生了很多不可控的因素。
目前在检测恶意域名中有很多大困难,为了降低恶意域名大误报率,本发明利用SVM作为机器学习的算法,通过收集域名的各种维度数据作为训练样本,最终识别出恶意域名。
因此,需要对现有技术进行改进。
发明内容
本发明要解决的技术问题是提供一种高效的基于SVM机器学习的恶意域名检测方法。
为解决上述技术问题,本发明提供一种基于SVM机器学习的恶意域名检测方法:包括以下步骤:
1)、收集数据;
2)、确定需要的维度;
3)、获得收集数据的维度,作为训练集数据;
4)、利用SVM模型对训练集数据进行训练生成模型;
5)、测试训练结果调整准确率。
作为对本发明基于SVM机器学习的恶意域名检测方法的改进:
在步骤1中:获取恶意域名作为收集数据的负样本;获取非恶意域名作为收集数据的正样本。
作为对本发明基于SVM机器学习的恶意域名检测方法的进一步改进:
确定维度包括域名的Alexa排名、搜狗RanK、搜狗的域名收入量、百度的收入量、必应的收入量、网站的首页完整度、是否是主流域名后缀、域名IP解析地理位置、A记录与CNAME、域名WHOIS数据。
作为对本发明基于SVM机器学习的恶意域名检测方法的进一步改进:
收集10种维度数据的方式:
Alexa排名:通过接口获取域名的排行,如果没有排行设置为较大值;
搜狗RanK:搜狗RanK值越大网站越大;没有搜狗RanK的设为0;
搜狗的域名收入量:通过搜狗搜索引擎获取域名收入量;没有收入量设为0;
百度的域名收入量:通过百度搜索引擎获取域名收入量;没有收入量设为0;
网站首页的完整度:判断网页首页是否包含<html><script><table><title><img><link><a><body><css>,越完整分数越高累加,首页为空则为0;
是否主流域名后缀:主流域名的主流后缀为.com、.net.、.cn;
域名解析IP地理位置:域名是否在国外;
A记录CNAME:有A记录CNAME的记1,没有的记为0;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术股份有限公司,未经杭州安恒信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910971102.0/2.html,转载请声明来源钻瓜专利网。