[发明专利]域识别加主题识别构建机器学习模型检测网页暗链的方法有效
申请号: | 201710853580.2 | 申请日: | 2017-09-20 |
公开(公告)号: | CN107566391B | 公开(公告)日: | 2020-04-14 |
发明(设计)人: | 孟雷 | 申请(专利权)人: | 上海斗象信息科技有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;G06F16/33;G06F16/955;G06N99/00 |
代理公司: | 上海翰信知识产权代理事务所(普通合伙) 31270 | 代理人: | 张维东 |
地址: | 201203 上海市浦东新区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种域识别加主题识别构建机器学习模型检测网页暗链的方法,包括:收集大量含已被标注为包含暗链的网页源码和标注为正常的网页源码作为训练集,通过可疑域识别、敏感域识别、安全域识别、全域分析和主题识别提取每个网页源码中风险文本、风险度、主题异样度、主题、风险文本向量、风险文本异常概率、以及风险文本长度,将训练集中所有网页源码的特征数据用机器学习算法进行模型训练得到分类判别模型,最后,将待预测网页源码的特征数据导入分类判别模型中,得到待预测网页源码是否包含暗链,因此,本发明对高混杂暗链代码识别效果好、特征提取的比较完整、且能够很好解决传统方法无法正确区分暗链和页面篡改的问题。 | ||
搜索关键词: | 识别 主题 构建 机器 学习 模型 检测 网页 方法 | ||
【主权项】:
一种域识别加主题识别构建机器学习模型检测网页暗链的方法,其特征在于,包括以下步骤:步骤1,收集大量网页源码作为训练集,所述训练集中包含已被标注为包含暗链的网页和标注为正常的网页;步骤2,提取训练集中网页源码和待预测网页源码中用于构建机器学习模型的特征数据,所述特征数据包含风险度、主题异样度、主题、风险文本向量、风险文本异常概率、以及风险文本长度,首先,将所述训练集中网页源码和待预测网页源码进行可疑域识别或敏感域识别得到每个网页源码的风险文本和风险度,进行安全域识别得到安全文本,或者,进行全域分析得到每个网页源码的风险文本、风险度和安全文本,根据所述风险文本和所述安全文本基于主题识别模型得到每个网页源码的主题异样度、以及主题,然后,将每个所述风险文本进行处理,并用Doc2vec算法对处理后的风险文本进行训练得到Doc2vec模型,将处理后的风险文本用所述Doc2vec模型处理得到风险文本向量,计算风险文本异常概率,并计算出风险文本长度;步骤3,将训练集中所有网页源码的特征数据用机器学习算法进行模型训练得到分类判别模型;步骤4,将待预测网页源码的特征数据导入所述分类判别模型中,得到待预测网页源码是否包含暗链。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海斗象信息科技有限公司,未经上海斗象信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710853580.2/,转载请声明来源钻瓜专利网。
- 上一篇:极耳抚平随动机构及锂电池卷绕机
- 下一篇:刮压极耳装置