[发明专利]提取及校验URL的方法有效
申请号: | 201611042612.2 | 申请日: | 2016-11-11 |
公开(公告)号: | CN106453689B | 公开(公告)日: | 2019-05-24 |
发明(设计)人: | 李强;王凤琴 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | H04L29/12 | 分类号: | H04L29/12;G06F16/955 |
代理公司: | 四川省成都市天策商标专利事务所 51213 | 代理人: | 陈靖 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种提取及校验URL的方法,它包括构建匹配模板库;从海量内容源中读取内容;根据协议模板、域名模板和IP地址模板,对输入的内容流进行匹配;对匹配出的内容进行分类存储;读取存储的URL数据;根据协议模板,对读入的内容进行检查;判断URL内容是否正确,如果URL数据正确,继续读取下一条存储的URL数据,如果URL数据不正确,那么转向下一步;对URL内容进行补全;检查URL内容是否符合定义,如果URL数据符合定义,那么把补全后的数据写入分类存储中,继续读取下一条存储的URL数据。如果URL数据不符合定义,则从存储的URL中删除此条记录,本发明提供的方法,是某些业务场景中进行大数据分析的基础方法,有较强的实用价值。 | ||
搜索关键词: | 提取 校验 url 方法 | ||
【主权项】:
1.一种提取及校验URL的方法,其特征在于,它包括以下步骤:步骤1,构建提取和校验URL的模板库,所述模板库包括协议模板库、域名模板库和IP地址模板库;步骤2,从海量内容源中读取内容,并把内容转换成输入流的方式进行读取,所述内容源包括来至互联网的网页内容、来至社交工具收集到的用户行为数据内容或来至传感器记录下的日志数据内容;步骤3,根据协议模板库,按照协议类别对输入的内容流进行匹配,过滤出满足协议模板库的URL数据;步骤4,根据域名模板库,按照域名级别、域名种类对输入的内容流进行匹配,过滤出满足域名模板库的URL数据;步骤5,根据IP地址模板库,按照IPv4和IPv6对输入的内容流进行匹配,过滤出满足IP地址模板库的URL数据;步骤6,根据步骤3‑步骤5匹配的结果,对匹配后的URL数据进行分类存储;步骤7,从分类存储的URL数据中依次读取URL数据;步骤8,根据协议模板库,对读取的URL数据根据协议规定和协议特征进行精确检查;步骤9,根据步骤8的精确检查结果,确定URL数据是否为正确的数据,如果URL数据正确,那么转向步骤7,继续读取下一条存储的URL数据,如果URL数据不正确,那么转向步骤10;步骤10,对URL数据进行补全;步骤11,对补全后的URL数据进行再次检查,查看URL数据是否依然符合定义,如果URL数据符合定义,那么把补全后的URL数据写入分类存储中,并转向步骤7,继续读取下一条存储的URL数据;如果URL数据不符合定义,则表示补全的URL数据无效,转向步骤12;步骤12,删除URL数据。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611042612.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种访问网络的方法及装置
- 下一篇:IP地址分配方法及装置