[发明专利]信息处理方法、装置、设备及介质在审
申请号: | 201711493159.1 | 申请日: | 2017-12-30 |
公开(公告)号: | CN110020058A | 公开(公告)日: | 2019-07-16 |
发明(设计)人: | 王捷;马红艳 | 申请(专利权)人: | 中国移动通信集团贵州有限公司;中国移动通信集团公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955 |
代理公司: | 北京东方亿思知识产权代理有限责任公司 11258 | 代理人: | 彭琼 |
地址: | 550001 贵州省贵*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息处理 哈希 去重 统一资源定位符 信息处理装置 哈希函数 哈希算法 映射数组 | ||
本发明实施例提供了一种信息处理方法、装置、设备及介质,方法包括:获取初步话单,该初步话单包括多个统一资源定位符URL,以及采用哈希算法对该多个URL进行去重处理,包括:判断每个URL采用多个哈希函数在映射数组中对应的多个哈希值是否相同,以及如果该多个哈希值相同,则进行URL的去重处理。本发明实施例还进一步提供了一种实现上述方法的信息处理装置、设备以及介质。
技术领域
本发明涉及电信领域的信息处理技术领域,尤其涉及一种基于话单的信息方法、装置、设备及介质。
背景技术
利用网络爬虫抓取网页内容是一种常用的网络信息识别方法,网站运营商以及电信运营商利用此种方法来统计分析用户的网络使用信息以及使用行为。
现有技术中,通常先爬取网页的统一资源定位符信息(URL),并将爬取到的URL去重,然后由网络爬虫爬取URL内容,并对爬取的URL内容进行分词来获取、识别以及分析网页内容。
然而,现有技术中采用的URL去重方法中,对不同的URL的识别精度不够高,常常将例如两个不同的URL错误识别相同的URL,进而爬虫只会爬取其中一个URL对对应的网页内容,降低了网页内容分析的准确率和全面性。
综上所述,却有必要提供一种能有效提高爬虫爬取URL准确性的信息处理方法、装置、设备及介质。
发明内容
本发明实施例提供了一种能有效提高爬虫爬取URL准确性的信息处理方法、装置、设备及介质。
第一方面,本发明实施例提供了一种信息处理方法,方法包括:
获取初步话单,该初步话单包括多个统一资源定位符URL,以及
采用哈希算法对该多个URL进行去重处理,包括:
判断每个所述URL采用多个哈希函数在映射数组中对应的多个哈希值是否相同,以及
如果该多个哈希值相同,则进行所述URL的去重处理。
第二方面,本发明实施例提供了一种信息处理装置,装置包括:至少一个处理电路,被配置为:
获取初步话单,该初步话单包括多个统一资源定位符URL,以及
采用哈希算法对该多个URL进行去重处理,包括:
判断每个所述URL采用多个哈希函数在映射数组中对应的多个哈希值是否相同,以及
如果该多个哈希值相同,则进行所述URL的去重处理。
本发明实施例提供了一种信息处理设备,包括:至少一个处理器、至少一个存储器以及存储在存储器中的计算机程序指令,当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序指令,当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。
本发明实施例提供的信息处理方法、装置、设备及介质,通过采用特定的哈希算法对多个URL进行去重处理,具体地,通过将每个URL采用多个哈希函数映射在一个映射数组中的多个节点,即采用多个不同的映射方式来映射同一个所述URL,从而在URL的重复性判断时能较好地提高URL的识别精度和准确度,避免了URL爬取的遗漏或误判。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例提供的信息处理方法的流程示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团贵州有限公司;中国移动通信集团公司,未经中国移动通信集团贵州有限公司;中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711493159.1/2.html,转载请声明来源钻瓜专利网。