[发明专利]一种基于身份特征信息的风险网站识别方法及系统有效

专利信息
申请号: 202110503642.3 申请日: 2021-05-10
公开(公告)号: CN113225343B 公开(公告)日: 2022-09-20
发明(设计)人: 罗维佳;罗剑芳;李晓琳;肖天梅;莫丽娟;刘子凯;丁卓 申请(专利权)人: 广州掌动智能科技有限公司
主分类号: H04L9/40 分类号: H04L9/40;G06F16/955
代理公司: 北京高沃律师事务所 11569 代理人: 韩雪梅
地址: 510000 广东省广州市天河区中*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 身份 特征 信息 风险 网站 识别 方法 系统
【权利要求书】:

1.一种基于身份特征信息的风险网站识别方法,其特征在于,所述基于身份特征信息的风险网站识别方法包括:

采集用户当前访问的网站数据;

根据白名单库,对所述用户当前访问的网站数据进行过滤,得到疑似网站;

获取所述疑似网站的域名和URL数据集;

对所述疑似网站的域名及URL数据集进行去重,并按时间排序,分类存储;

根据所述疑似网站,确定对应疑似网站的多个身份特征信息;所述身份特征信息包括统一资源定位器URL身份特征、域名身份特征以及内容身份特征;所述根据所述疑似网站,确定对应网站的多个身份特征信息,具体包括:

根据所述疑似网站,采用网页爬虫技术,得到对应疑似网站的源码;

根据疑似网站的源码,提取对应的内容身份特征;

根据所述疑似网站,采用字符串匹配和识别算法,提取对应的URL身份特征;

根据所述疑似网站,提取对应的域名身份特征;

将所述疑似网站的各身份特征信息进行量化处理,得到对应的量化身份特征;

根据各量化身份特征,确定对应疑似网站的风险识别结果;

所述将所述疑似网站的各身份特征信息进行量化处理,得到对应的量化身份特征,具体包括:

根据以下公式,得到所述疑似网站的URL身份特征、域名身份特征以及内容身份特征对应的量化身份特征:

其中,F1~F4为URL身份特征对应的量化身份特征,F5~F6为域名身份特征对应的量化身份特征,F7~F10为内容身份特征对应的量化身份特征;

所述白名单库的建立方法具体包括:

采集用户历史上网日志数据集;所述用户历史上网日志数据集包括多个历史网站数据;

根据所述历史上网日志数据集,得到各历史网站的用户访问量及安全度;

根据各历史网站对应的用户访问量及安全度,筛选出用户访问量大于访问量阈值,且安全度大于安全度阈值的历史网站,确定白名单库;

所述根据各量化身份特征,确定对应疑似网站的风险识别结果,具体包括:

根据疑似网站的各量化身份特征值,采用加权线性分类函数,确定对应疑似网站的风险识别结果;

所述加权线性分类函数的建立方法,具体包括:

获取白名单库中各安全网站对应的多个身份特征信息以及黑名单库中各危险网站对应的多个身份特征信息;所述黑名单库中保存有预先收集的危险网站;所述白名单库中保存有安全网站;所述安全网站和所述危险网站构成试验网站;

计算所述试验网站的各身份特征信息单独检测页面时的正确率和误判率;

将各身份特征信息进行量化处理,得到对应的量化身份特征;

根据各身份特征信息对应的正确率、误判率以及量化身份特征,得到各身份特征信息的权重;

根据各身份特征信息的权重以及各身份特征信息对应的量化身份特征,确定加权线性分类函数;

根据以下公式,确定各身份特征信息的权重:

其中,Wi为第i个身份特征信息的权重,Fi为第i个身份特征信息对应的量化身份特征,为第i个身份特征信息单独检测页面时的正确率,为第i个身份特征信息单独检测页面时的误判率。

2.根据权利要求1所述的基于身份特征信息的风险网站识别方法,其特征在于,根据以下公式,确定加权线性分类函数:

S=f(∑Fi×Wi),0i≤10;

其中,Fi为第i个身份特征信息对应的量化身份特征,Wi为第i个身份特征信息的权重。

3.根据权利要求1或2所述的基于身份特征信息的风险网站识别方法,其特征在于,所述基于身份特征信息的风险网站识别方法还包括:

根据疑似网站的风险识别结果,将对应的疑似网站存储到黑名单库或白名单库中。

4.一种基于身份特征信息的风险网站识别系统,其特征在于,所述基于身份特征信息的风险网站识别系统包括:

采集单元,用于采集用户当前访问的网站数据;

过滤单元,与所述采集单元连接,用于根据白名单库,对所述用户当前访问的网站数据进行过滤,得到疑似网站,并获取所述疑似网站的域名和URL数据集,对所述疑似网站的域名及URL数据集进行去重,并按时间排序,分类存储;

身份特征确定单元,与所述过滤单元连接,用于根据所述疑似网站,确定对应网站的多个身份特征信息,具体包括:根据所述疑似网站,采用网页爬虫技术,得到对应疑似网站的源码;根据疑似网站的源码,提取对应的内容身份特征;根据所述疑似网站,采用字符串匹配和识别算法,提取对应的URL身份特征;根据所述疑似网站,提取对应的域名身份特征;所述身份特征信息包括统一资源定位器URL身份特征、域名身份特征以及内容身份特征;

量化单元,与所述身份特征确定单元连接,用于将所述疑似网站的各身份特征信息进行量化处理,得到对应的量化身份特征,具体包括:

根据以下公式,得到所述疑似网站的URL身份特征、域名身份特征以及内容身份特征对应的量化身份特征:

其中,F1~F4为URL身份特征对应的量化身份特征,F5~F6为域名身份特征对应的量化身份特征,F7~F10为内容身份特征对应的量化身份特征;

识别单元,与所述量化单元连接,用于根据各量化身份特征,确定对应疑似网站的风险识别结果;

所述白名单库的建立方法具体包括:

采集用户历史上网日志数据集;所述用户历史上网日志数据集包括多个历史网站数据;

根据所述历史上网日志数据集,得到各历史网站的用户访问量及安全度;

根据各历史网站对应的用户访问量及安全度,筛选出用户访问量大于访问量阈值,且安全度大于安全度阈值的历史网站,确定白名单库;

所述根据各量化身份特征,确定对应疑似网站的风险识别结果,具体包括:

根据疑似网站的各量化身份特征值,采用加权线性分类函数,确定对应疑似网站的风险识别结果;

所述加权线性分类函数的建立方法,具体包括:

获取白名单库中各安全网站对应的多个身份特征信息以及黑名单库中各危险网站对应的多个身份特征信息;所述黑名单库中保存有预先收集的危险网站;所述白名单库中保存有安全网站;所述安全网站和所述危险网站构成试验网站;

计算所述试验网站的各身份特征信息单独检测页面时的正确率和误判率;

将各身份特征信息进行量化处理,得到对应的量化身份特征;

根据各身份特征信息对应的正确率、误判率以及量化身份特征,得到各身份特征信息的权重;

根据各身份特征信息的权重以及各身份特征信息对应的量化身份特征,确定加权线性分类函数;

根据以下公式,确定各身份特征信息的权重:

其中,Wi为第i个身份特征信息的权重,Fi为第i个身份特征信息对应的量化身份特征,为第i个身份特征信息单独检测页面时的正确率,为第i个身份特征信息单独检测页面时的误判率。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州掌动智能科技有限公司,未经广州掌动智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110503642.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top