[发明专利]一种恶意URL检测方法及其实现系统有效
| 申请号: | 201510149110.9 | 申请日: | 2015-03-31 |
| 公开(公告)号: | CN104735074A | 公开(公告)日: | 2015-06-24 |
| 发明(设计)人: | 汪德嘉;叶芸;胡振中;葛彦霆;刘伟 | 申请(专利权)人: | 江苏通付盾信息科技有限公司 |
| 主分类号: | H04L29/06 | 分类号: | H04L29/06 |
| 代理公司: | 南京苏科专利代理有限责任公司 32102 | 代理人: | 陈忠辉 |
| 地址: | 215125 江苏省苏州市工*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 恶意 url 检测 方法 及其 实现 系统 | ||
1.一种恶意URL检测方法,其特征在于包括步骤:S1、根据RFC1738规范将待检测URL拆分为字符串,并采用补全、修改字符串的方式整理得到实质相同的新URL;S2,将S1所得到的新URL在URL知识库中遍历匹配,将包含于URL知识库中并直接匹配的URL检测结果输出;S3,对无法在URL知识库中查到的新URL通过预定义规则进行判断并分类检测,包括步骤S31-S33;
S31、对规则判断包含恶意特征的URL检测结果输出;
S32、对规则判断为简短化的URL,采用还原法转换成相应长度的URL并执行步骤S2;
S33、对于规则无法判断的URL,提取特征字段构建预测文件,并通过线下训练且不断更新的分类器对预测文件作模型预测恶意性并输出。
2.根据权利要求1所述恶意URL检测方法,其特征在于:步骤S1中所述补全、修改字符串的方式是指:面向拆分待检测URL所得的字符串,判断是否存在协议或是否包含查询字符串,对缺失协议的情况补充默认的HTTP协议;对包含查询字符串的情况去除该查询字符串及其前面的“?”字符,形成实质相同的新URL。
3.根据权利要求1所述恶意URL检测方法,其特征在于:步骤S2中所述URL知识库包含正常URL、恶意URL及正常URL的顶级域名,待检测URL或待检测URL的顶级域名存在于URL知识库中直接匹配,将URL检测结果输出。
4.根据权利要求1所述恶意URL检测方法,其特征在于:步骤S3中所述预定义规则包括恶意特征筛检和简短化URL筛检,其中恶意特征筛检指的是标识只包含英文字母或数字的待检测URL,简短化URL筛检指的是标识包含短URL服务商、URL只有三层路径且第三层中只包含英文字母或数字的待检测URL。
5.根据权利要求1所述恶意URL检测方法,其特征在于:步骤S33中所述分类器的线下训练方式为:基于URL知识库从中提取URL的相关特征构建训练文件,然后采用分类算法进行训练、优化并保存模型,其中分类算法至少为决策树、支持向量机、逻辑回归、随机森林或多种复用;所述分类器的线下训练为随URL知识库变化定期或非定期地更新,在对预定义规则无法判断的URL进行恶意性检测时,提取URL的相关特征字段构建预测文件,而后采用所保存的模型对预测文件作检测,得到预测结果并输出。
6.一种恶意URL检测的实现系统,其特征在于由整理模块、匹配模块、规则识别模块和模型预测模块相连构成,其中所述整理模块具有待检测URL的接收端且为按照RFC1738规范对待检测URL通过采用拆分,补全、修改的方式整理得到实质相同的新URL的处理装置;所述匹配模块接收连至整理模块且匹配模块中包含URL知识库及匹配处理装置,所述规则识别模块具有预定义规则及基于该规则的分类处理装置,且规则识别模块对应分类判断的结果分别输出连至模型预测模块、整理模块或检测结果输出端,所述模型预测模块具有线下训练且持续更新的分类器,并具有基于分类器对预测文件作恶意性检测的处理装置。
7.根据权利要求6所述恶意URL检测的实现系统,其特征在于:匹配模块中所述URL知识库中包含持续更新的正常URL、恶意URL及正常URL的顶级域名。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏通付盾信息科技有限公司;,未经江苏通付盾信息科技有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510149110.9/1.html,转载请声明来源钻瓜专利网。





