[发明专利]一种统一资源定位符相似度的处理方法在审
申请号: | 201610981810.9 | 申请日: | 2016-11-08 |
公开(公告)号: | CN106503244A | 公开(公告)日: | 2017-03-15 |
发明(设计)人: | 郭猛 | 申请(专利权)人: | 天津海量信息技术股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 300000 天津市滨海新区*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种统一资源定位符相似度的处理方法,包括如下内容无效参数过滤、特征字检测、统一资源定位符自动结构化、统一资源定位符相似度计算和相似度结果说明。本发明将一个完整的统一资源定位符进行有限程度的简化并根据其特点拆分为若干个用于进行对比计算的子元素。该步骤是后续相似度计算的基础,只有将一个统一资源定位符进行合理、有效的拆分才能获得更精确的计算结果,最大化的降低算法逻辑复杂度。通过反复、大量的分析统一资源定位符样本,并针对实际产生的内容进行分析,从而确认整体算法的各个步骤,以尽可能简单,精准的获取到期待的结果。 | ||
搜索关键词: | 一种 统一 资源 定位 相似 处理 方法 | ||
【主权项】:
一种统一资源定位符相似度的处理方法,其特征在于:包括如下内容:A、无效参数过滤:用于在进行统一资源定位符相似度计算之前有限的减少统一资源定位符复杂对,过滤掉其中对于统一资源定位符对比计算无意义的字符;B、特征字检测:根据已知的数据,检测提供数据的统一资源定位符中是否存在明显的异常特征字,并根据出现的位置及次数情况计算相似度评分参数;C、统一资源定位符自动结构化:根据统一资源定位符的特性将其拆分为3个部分,包括:域名,路径,参数;之后会检查其中是否存在连字符,并对其进行进一步的分组拆分;后续的相似度计算会分别针对每个部分以及某几个部分进行综合性对比,并给出每个阶段的相似度结果;D、统一资源定位符相似度计算:将结构化的后的起始统一资源定位符和终止统一资源定位符进行对比,比较其中的每个部分出现的位置及次数,并给出相似度结果。E、相似度结果说明:该算法最终会得到一个0‑9的相似度的评分,相似度越高则评分越高,一般情况下:7‑9为“高度相似”;3‑6为“无法确认”;“0‑2”为“差异过大”。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津海量信息技术股份有限公司,未经天津海量信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610981810.9/,转载请声明来源钻瓜专利网。
- 上一篇:一种天然保健牡丹酵素饮品的制备方法
- 下一篇:林蛙活性富硒蛋白标准固体饮品