[发明专利]一种应用爬取方法及系统在审
申请号: | 201710120705.0 | 申请日: | 2017-03-02 |
公开(公告)号: | CN106886602A | 公开(公告)日: | 2017-06-23 |
发明(设计)人: | 雷建朝 | 申请(专利权)人: | 上海斐讯数据通信技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州千克知识产权代理有限公司33246 | 代理人: | 周希良,吴辉辉 |
地址: | 201616 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 应用 方法 系统 | ||
技术领域
本发明涉及数据信息检索技术领域,具体为一种应用爬取方法及系统。
背景技术
随着移动互联网的日益兴盛以及“互联网+”的提出,移动互联网的便捷性与高效性越来越为人们所熟知。O2O(OnlineToOffline,线上到线下)概念的提出及各种线上线下的应用,不仅快速促进了商品的买卖,也极大的丰富了人们的生活。
在大众的“互联网+”的生活中,海量的移动应用(MobileApplications,简称app)占据着举足重要的地位。国内各大移动应用市场为大众的app需求提供了强有力的支撑。在移动互联网的时代,盛产apk,推广各个apk也会在各大android市场上架。我们做应用市场的时候爬取应用如果不局限于一个应用市场,比如要从应用宝,360的橙子市场,百度轻运用爬取apk,很多apk会在多家市场发布,海量的apk其中有些重复的apk,怎样保证重复量不高的情况下爬取一个全量的apk包,是一个急需解决的难题。
其中,apk的相似度计算是极其重要的一步。对于应用的相似性计算,有基于app内容的相似性计算方法。大部分的基于内容的相似性计算方法是基于app的描述信息,因为描述信息是能够描述一个app本身比较权威的资料。但是,现有的描述信息的计算方法一般是基于词袋模型来做的。词袋模型没有考虑词与词之间的顺序,这样就忽略了很多词的上下文关系,在计算向量间的相似性时,比如两个近义词,由于不是同一个词,很有可能使得相似性变小而出现很大的误差。
同时,计算相似性应用时,现有大多数方法并未将app的其他诸如名称、类别及大小等信息考虑在内。而现有的方法又将诸如app的评论信息也加入其中。据我们观察发现,app的评论信息的质量非常差,一般无法反应出app的真实内容。
发明内容
本发明针对现有技术存在的问题,提出了一种应用爬取的方法及系统。
本发明解决其技术问题所采用的技术方案是:一种爬取应用方法,应用于应用爬取系统中,包括以下步骤,
1)获取应用的包名;
2)将所述应用的包名通过布隆过滤器处理生成一爬取数组;
3)利用所述爬取数组与已存储在应用爬取系统中的爬取数组做比较,判断所述应用是否已爬取;
若所述应用未爬取,对所述应用进行爬取,并将所述爬取数组存储在所述应用爬取系统中。
作为优选,所述将所述应用的包名通过布隆过滤器处理生成一爬取数组,包括:
创建一个多位的数组,将数组中的所有位均设置为0;
选取一个以上哈希函数,获取所述应用的包名对应不同哈希函数的不同结果值;
根据所述结果值所对应的数组的相应位均设置为1。
作为优选,所述哈希函数的个数可以通过计算式k=ln(2)*m/n获得,其中,k表示哈希函数的个数,m表示爬取数组的位数,n表示应用的数量。
作为优选,还包括,将所述应用的特征信息与白名单进行比较,所述白名单中记录已爬取应用的特征信息。
作为优选,如果某一应用在步骤3)中判定为已爬取,则将所述应用的特征信息与所述白名单中对应应用的特征信息做相似度对比,如果相似度大于一定阈值,则将所述应用判定为绝对已爬取;否则,将所述应用重新判定为未爬取。
作为优选,所述应用特征信息包括应用的名称、类型、描述、大小和关健词。
一种应用爬取系统,包括,
爬取数组存储模块,用以存储已爬取应用的爬取数组;
包名获取单元,用于通过应用的安装包获取应用的包名;
应用检测单元,用于通过包名检测应用的爬取情况。
作为优选,所述应用检测单元包括,
布隆过滤器,用于根据应用的包名生成一爬取数组;
对比单元,用于将新生成的爬取数组与爬取系统中的爬取数组做对比以判断应用是否已爬取。
作为优选,所述应用爬取系统还包括白名单,用于记录已爬取应用的特征信息。
作为优选,所述布隆过滤器包括数组创建单元,哈希函数选取单元和数组位值设定单元。
本发明的有益效果是,在需要爬取大量应用时,可通过布隆过滤器对应用进行过滤爬取以保证在重复量不高的情况下爬取一个全量的应用,采用布隆过滤器可大大节省应用的爬取时间,能够节省大量的存储空间,并且通过白名单机制将已判定为已爬取应用的应用与相似应用做相似度对比,以进一步确定应用是否真的已爬取,从而降低了应用爬取的错误率。
附图说明
图1为一种应用爬取方法的流程示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海斐讯数据通信技术有限公司,未经上海斐讯数据通信技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710120705.0/2.html,转载请声明来源钻瓜专利网。