[发明专利]恶意网页识别模型、识别模型建立方法、识别方法及系统在审
申请号: | 202010026951.1 | 申请日: | 2020-01-10 |
公开(公告)号: | CN111259219A | 公开(公告)日: | 2020-06-09 |
发明(设计)人: | 曲武 | 申请(专利权)人: | 北京金睛云华科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955;G06N3/04;G06N3/08;G06K9/62 |
代理公司: | 沈阳友和欣知识产权代理事务所(普通合伙) 21254 | 代理人: | 杨群 |
地址: | 100088 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 恶意 网页 识别 模型 建立 方法 系统 | ||
本发明属于恶意网页识别技术领域,具体涉及一种恶意网页识别模型、识别模型建立方法、识别方法及系统,在通过爬虫工具采集完恶意网页内容数据样本和正常网页内容数据样本后,依次使用SMOTE算法、GAN算法对恶意网页内容数据样本进行扩增,使其与正常网页内容数据样本数量均衡,之后利用恶意网页内容数据样本、正常网页内容数据样本训练5个分类器,生成5个模型后进行融合,并对融合后各模型的权重进行调整,得到最终的恶意网页识别模型,本发明在恶意网页样本数据与正常网页样本数据能够基本均衡的情况下建立模型,准确率高;并且能够避免用单一模型进行结果输出带来的误差,同样能够提高准确率。
技术领域
本发明属于恶意网页识别技术领域,具体涉及一种恶意网页识别模型、识别模型建立方法、识别方法及系统。
背景技术
黑名单技术是恶意网址发现算法中最传统、最经典的技术,网页黑名单中包含已知的恶意网址列表,通常是由具有公信力的网站根据用户举报、网页内容分析等手段生成并发布。当用户浏览某一网址时,基于网页黑名单的数据库就开始进行搜索。如果这个网址在网页黑名单库中,它就会被认为是恶意网址,浏览器会出现警告信息;否则认为此网址是正常网址。在网址生成算法成熟的现在,每天都会有大量的恶意网址出现,黑名单技术不能够及时更新所有的恶意网址。因此,黑名单技术只能给与用户最低程度的保护,并不能及时检测出恶意网站,阻断用户对恶意网站的访问。虽然黑名单技术有着漏判严重、更新时效性低等缺点,但是其简单易用,因此仍是许多杀毒系统常用的技术之一。
启发式算法是对黑名单技术的一种补充算法,其主要原理是利用从恶意网址中发现的黑名单相似性规则来发现并识别恶意网页。此算法可以依靠现有的启发式规则识别(已有的以及部分之前未出现的)恶意网页,而不需要依靠黑名单的精确匹配来完成恶意网页识别。但是,这种方法只能为有限数量的相似恶意网页而设计,并不能针对所有的恶意网页,而且恶意网页要绕过此类的模糊匹配技术并不难。Moshchuk等人提出了一种更具体的启发式方法,这些方法通过分析网页的执行动态,比如并不寻常的过程创建、频繁的重定向等寻找恶意网页的签名。但是启发式算法有比如误报率高以及规则更新难等一些众所周知的缺点。
机器学习算法是目前研究的热点之一,此类算法通过分析网页URL以及网页信息,提取域名的重要特征表示,并训练出一个预测模型。目前用于恶意网页识别的机器学习算法主要分为无监督算法和有监督算法。有监督算法也叫分类算法,此类算法需要大量的已标注恶意/良性的网页地址作为训练集,抽取网页特征,然后利用现有的分类算法(SVM、C5.0、决策树、逻辑回归等)进行恶意网页识别。有监督学习算法首先要对所有标注URL的信息进行特征提取(域名特征、注册信息、生存时间等),然后从中选择出能够区别恶意/良性URL的特征,之后再利用分类算法进行建模分析。此算法的准确率较高而且误报率相对较低,但是却对标注数据以及特征工程比较敏感,标注数据的准确率以及选择使用的特征会严重影响算法的准确率和效率。
无监督机器学习方法又称聚类方法。此类方法的具体分类过程主要由特征提取、聚类、簇标记和网页判别等步骤组成。主要做法是首先将URL数据集划分为若干簇,使得同一簇的数据对象之间相似度较高,而不同簇的数据对象之间的相似度较低。然后通过构造和标记数据集中的簇来区分恶意网页和良性网页。
但由于恶意网页数据集少,大部分识别恶意网页的方法都基于学习正常的网页内容数据,做单分类的检测,建立单分类模型,如有恶意网页数据送入模型,即可识别是否属于正常网页,如果不属于,即识别为恶意网页。
发明内容
为了解决上述技术问题,本发明提供一种恶意网页识别模型、识别模型建立方法、识别方法及系统,解决现有恶意网页识别方法中,恶意网页数据少,只能通过学习正常网络数据模型,从而使得模型分类结果不准确的问题。
本发明是这样实现的,提供一种恶意网页识别模型的建立方法,包括如下步骤:
1)使用爬虫工具在网络中进行爬虫,将爬取到的网页内容数据样本人为鉴别,分为恶意网页内容数据样本和正常网页内容数据样本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金睛云华科技有限公司,未经北京金睛云华科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010026951.1/2.html,转载请声明来源钻瓜专利网。