[发明专利]一种针对URL的分词方法及装置有效
申请号: | 201711237280.8 | 申请日: | 2017-11-30 |
公开(公告)号: | CN108228710B | 公开(公告)日: | 2021-09-28 |
发明(设计)人: | 亚静;柳厅文;张盼盼;李全刚;时金桥;郭莉 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F16/955 | 分类号: | G06F16/955;G06F40/284;G06F40/289 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 url 分词 方法 装置 | ||
本发明涉及一种针对URL的分词方法及装置。该方法包括:1)对URL地址按照其内在的层次结构进行分割,得到若干层次部分;2)对所述若干层次部分依次进行符号分割与正则表达式过滤;3)对步骤2)处理后得到字符串进行分割,得到URL分词序列。其中步骤1)将URL地址分割为五个层次部分:协议类型、自由域名、二级域名、顶级域名和路径;步骤3)利用双向最大匹配算法和概率模型对字符串进行分割。本发明充分利用了URL本身的层次结构,能够高效地对URL进行分割,并最大化地保留了URL地址中的有用信息,得到的URL分词序列可用于网页分类、钓鱼URL检测等任务中的特征分析,能够有效提高任务准确率。
技术领域
本发明涉及网络安全数据的分词技术领域,尤其涉及一种针对URL的分词方法及装置,在保留URL特有层次结构的基础上得到URL字符串的分词序列,其结果可以用于网页分类、钓鱼URL检测等任务中的特征分析。
背景技术
URL是统一资源定位符,是互联网上标准的资源的地址,通过其可实现对信息资源的访问与获取。URL使用ASCII代码的一部分来表示地址,语法是可扩展的,其标准结构如下:
协议类型:[//服务器地址[:端口号]][/路径][?查询][#片段]
大多数URL都包括三个主要部分:协议类型(scheme)、服务器地址(domain)和路径(path)。协议类型部分表明该URL使用的传送协议,网络领域常见的协议是http和https。服务器地址部分通常使用域名或IP地址来指明资源在网络上的位置。域名是IP地址的一种特殊化表示,通过DNS服务可实现其与IP地址之间的映射,通常采用有意义的字符串或者品牌名,便于人们记忆。其中,域名也是一种层次结构,以“.”来分割。路径部分指定资源文件在服务器地址的具体位置,也是一种层次结构,以“/”为分割符分割整个路径。
URL作为网络地址标识,通常包含有与页面资源或主题相关的关键词或者某著名公司的品牌关键词等,方便人们记忆与搜索。通过分析URL中有意义的词语,可实现对相关网页的简单分类。此外,攻击者也常常利用一些混淆词语来伪造URL,欺骗用户,进行钓鱼攻击。因此,对URL进行合理的分词,是具有十分重大的意义的。
目前,分词方法主要分为两大类,一种是针对英文文本的分词方法,基于英文自身的特性,文本中都是带有空格的单词组成,因此对其处理主要是简单的基于单词粒度的;一种是针对中文文本的分词方法,不同于英文文本自身带有空格间隔,中文文本都是无间隔的,其处理粒度是由字到词语组合的。URL地址作为一种使用部分ASCII码来表示的无空格间隔的特殊字符串,既具有英文文本的特征,又具有中文文本的特性,分词时需要考虑多种因素,且目前没有特别针对URL的分词方法及装置。
现有的分词技术具有一定的单一性与局限性,不能准确的对URL地址进行处理。不同于传统自然语言的中英文文本数据,URL地址作为一种特殊的有着层次结构的网络数据,具有其独特的语言特征:单条URL不是完整的句子,长度有限,且通常含有一些特殊字符串,如IP地址、日期、版本号等特殊含义的字段。如果对其分词不当,便会丢失很多其内在信息。同时,目前没有一种特别针对URL的分词方法。
发明内容
本发明的目的在于提供一种针对URL的分词方法及装置,对URL地址进行分词处理,并尽可能地保留其内在信息,其分词结果可用于网页分类、钓鱼URL检测等任务中的特征分析,帮助提高任务准确率。
本发明采用的技术方案如下:
一种针对URL的分词方法,包括以下步骤:
1)对URL地址按照其内在的层次结构进行分割,得到若干层次部分;
2)对所述若干层次部分依次进行符号分割与正则表达式过滤;
3)对步骤2)处理后得到字符串进行分割,得到URL分词序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711237280.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据存储方法和系统、电子设备、程序和介质
- 下一篇:一种铁路线路查询系统