[发明专利]一种统一资源定位符相似度的处理方法在审

专利信息
申请号: 201610981810.9 申请日: 2016-11-08
公开(公告)号: CN106503244A 公开(公告)日: 2017-03-15
发明(设计)人: 郭猛 申请(专利权)人: 天津海量信息技术股份有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 300000 天津市滨海新区*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种统一资源定位符相似度的处理方法,包括如下内容无效参数过滤、特征字检测、统一资源定位符自动结构化、统一资源定位符相似度计算和相似度结果说明。本发明将一个完整的统一资源定位符进行有限程度的简化并根据其特点拆分为若干个用于进行对比计算的子元素。该步骤是后续相似度计算的基础,只有将一个统一资源定位符进行合理、有效的拆分才能获得更精确的计算结果,最大化的降低算法逻辑复杂度。通过反复、大量的分析统一资源定位符样本,并针对实际产生的内容进行分析,从而确认整体算法的各个步骤,以尽可能简单,精准的获取到期待的结果。
搜索关键词: 一种 统一 资源 定位 相似 处理 方法
【主权项】:
一种统一资源定位符相似度的处理方法,其特征在于:包括如下内容:A、无效参数过滤:用于在进行统一资源定位符相似度计算之前有限的减少统一资源定位符复杂对,过滤掉其中对于统一资源定位符对比计算无意义的字符;B、特征字检测:根据已知的数据,检测提供数据的统一资源定位符中是否存在明显的异常特征字,并根据出现的位置及次数情况计算相似度评分参数;C、统一资源定位符自动结构化:根据统一资源定位符的特性将其拆分为3个部分,包括:域名,路径,参数;之后会检查其中是否存在连字符,并对其进行进一步的分组拆分;后续的相似度计算会分别针对每个部分以及某几个部分进行综合性对比,并给出每个阶段的相似度结果;D、统一资源定位符相似度计算:将结构化的后的起始统一资源定位符和终止统一资源定位符进行对比,比较其中的每个部分出现的位置及次数,并给出相似度结果。E、相似度结果说明:该算法最终会得到一个0‑9的相似度的评分,相似度越高则评分越高,一般情况下:7‑9为“高度相似”;3‑6为“无法确认”;“0‑2”为“差异过大”。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津海量信息技术股份有限公司,未经天津海量信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610981810.9/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top