[发明专利]一种基于身份特征信息的风险网站识别方法及系统有效
申请号: | 202110503642.3 | 申请日: | 2021-05-10 |
公开(公告)号: | CN113225343B | 公开(公告)日: | 2022-09-20 |
发明(设计)人: | 罗维佳;罗剑芳;李晓琳;肖天梅;莫丽娟;刘子凯;丁卓 | 申请(专利权)人: | 广州掌动智能科技有限公司 |
主分类号: | H04L9/40 | 分类号: | H04L9/40;G06F16/955 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 韩雪梅 |
地址: | 510000 广东省广州市天河区中*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 身份 特征 信息 风险 网站 识别 方法 系统 | ||
1.一种基于身份特征信息的风险网站识别方法,其特征在于,所述基于身份特征信息的风险网站识别方法包括:
采集用户当前访问的网站数据;
根据白名单库,对所述用户当前访问的网站数据进行过滤,得到疑似网站;
获取所述疑似网站的域名和URL数据集;
对所述疑似网站的域名及URL数据集进行去重,并按时间排序,分类存储;
根据所述疑似网站,确定对应疑似网站的多个身份特征信息;所述身份特征信息包括统一资源定位器URL身份特征、域名身份特征以及内容身份特征;所述根据所述疑似网站,确定对应网站的多个身份特征信息,具体包括:
根据所述疑似网站,采用网页爬虫技术,得到对应疑似网站的源码;
根据疑似网站的源码,提取对应的内容身份特征;
根据所述疑似网站,采用字符串匹配和识别算法,提取对应的URL身份特征;
根据所述疑似网站,提取对应的域名身份特征;
将所述疑似网站的各身份特征信息进行量化处理,得到对应的量化身份特征;
根据各量化身份特征,确定对应疑似网站的风险识别结果;
所述将所述疑似网站的各身份特征信息进行量化处理,得到对应的量化身份特征,具体包括:
根据以下公式,得到所述疑似网站的URL身份特征、域名身份特征以及内容身份特征对应的量化身份特征:
其中,F1~F4为URL身份特征对应的量化身份特征,F5~F6为域名身份特征对应的量化身份特征,F7~F10为内容身份特征对应的量化身份特征;
所述白名单库的建立方法具体包括:
采集用户历史上网日志数据集;所述用户历史上网日志数据集包括多个历史网站数据;
根据所述历史上网日志数据集,得到各历史网站的用户访问量及安全度;
根据各历史网站对应的用户访问量及安全度,筛选出用户访问量大于访问量阈值,且安全度大于安全度阈值的历史网站,确定白名单库;
所述根据各量化身份特征,确定对应疑似网站的风险识别结果,具体包括:
根据疑似网站的各量化身份特征值,采用加权线性分类函数,确定对应疑似网站的风险识别结果;
所述加权线性分类函数的建立方法,具体包括:
获取白名单库中各安全网站对应的多个身份特征信息以及黑名单库中各危险网站对应的多个身份特征信息;所述黑名单库中保存有预先收集的危险网站;所述白名单库中保存有安全网站;所述安全网站和所述危险网站构成试验网站;
计算所述试验网站的各身份特征信息单独检测页面时的正确率和误判率;
将各身份特征信息进行量化处理,得到对应的量化身份特征;
根据各身份特征信息对应的正确率、误判率以及量化身份特征,得到各身份特征信息的权重;
根据各身份特征信息的权重以及各身份特征信息对应的量化身份特征,确定加权线性分类函数;
根据以下公式,确定各身份特征信息的权重:
其中,Wi为第i个身份特征信息的权重,Fi为第i个身份特征信息对应的量化身份特征,为第i个身份特征信息单独检测页面时的正确率,为第i个身份特征信息单独检测页面时的误判率。
2.根据权利要求1所述的基于身份特征信息的风险网站识别方法,其特征在于,根据以下公式,确定加权线性分类函数:
S=f(∑Fi×Wi),0i≤10;
其中,Fi为第i个身份特征信息对应的量化身份特征,Wi为第i个身份特征信息的权重。
3.根据权利要求1或2所述的基于身份特征信息的风险网站识别方法,其特征在于,所述基于身份特征信息的风险网站识别方法还包括:
根据疑似网站的风险识别结果,将对应的疑似网站存储到黑名单库或白名单库中。
4.一种基于身份特征信息的风险网站识别系统,其特征在于,所述基于身份特征信息的风险网站识别系统包括:
采集单元,用于采集用户当前访问的网站数据;
过滤单元,与所述采集单元连接,用于根据白名单库,对所述用户当前访问的网站数据进行过滤,得到疑似网站,并获取所述疑似网站的域名和URL数据集,对所述疑似网站的域名及URL数据集进行去重,并按时间排序,分类存储;
身份特征确定单元,与所述过滤单元连接,用于根据所述疑似网站,确定对应网站的多个身份特征信息,具体包括:根据所述疑似网站,采用网页爬虫技术,得到对应疑似网站的源码;根据疑似网站的源码,提取对应的内容身份特征;根据所述疑似网站,采用字符串匹配和识别算法,提取对应的URL身份特征;根据所述疑似网站,提取对应的域名身份特征;所述身份特征信息包括统一资源定位器URL身份特征、域名身份特征以及内容身份特征;
量化单元,与所述身份特征确定单元连接,用于将所述疑似网站的各身份特征信息进行量化处理,得到对应的量化身份特征,具体包括:
根据以下公式,得到所述疑似网站的URL身份特征、域名身份特征以及内容身份特征对应的量化身份特征:
其中,F1~F4为URL身份特征对应的量化身份特征,F5~F6为域名身份特征对应的量化身份特征,F7~F10为内容身份特征对应的量化身份特征;
识别单元,与所述量化单元连接,用于根据各量化身份特征,确定对应疑似网站的风险识别结果;
所述白名单库的建立方法具体包括:
采集用户历史上网日志数据集;所述用户历史上网日志数据集包括多个历史网站数据;
根据所述历史上网日志数据集,得到各历史网站的用户访问量及安全度;
根据各历史网站对应的用户访问量及安全度,筛选出用户访问量大于访问量阈值,且安全度大于安全度阈值的历史网站,确定白名单库;
所述根据各量化身份特征,确定对应疑似网站的风险识别结果,具体包括:
根据疑似网站的各量化身份特征值,采用加权线性分类函数,确定对应疑似网站的风险识别结果;
所述加权线性分类函数的建立方法,具体包括:
获取白名单库中各安全网站对应的多个身份特征信息以及黑名单库中各危险网站对应的多个身份特征信息;所述黑名单库中保存有预先收集的危险网站;所述白名单库中保存有安全网站;所述安全网站和所述危险网站构成试验网站;
计算所述试验网站的各身份特征信息单独检测页面时的正确率和误判率;
将各身份特征信息进行量化处理,得到对应的量化身份特征;
根据各身份特征信息对应的正确率、误判率以及量化身份特征,得到各身份特征信息的权重;
根据各身份特征信息的权重以及各身份特征信息对应的量化身份特征,确定加权线性分类函数;
根据以下公式,确定各身份特征信息的权重:
其中,Wi为第i个身份特征信息的权重,Fi为第i个身份特征信息对应的量化身份特征,为第i个身份特征信息单独检测页面时的正确率,为第i个身份特征信息单独检测页面时的误判率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州掌动智能科技有限公司,未经广州掌动智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110503642.3/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置