[发明专利]候选页面集合的生成方法及装置在审
申请号: | 201510919692.4 | 申请日: | 2015-12-11 |
公开(公告)号: | CN106874282A | 公开(公告)日: | 2017-06-20 |
发明(设计)人: | 魏少俊 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京三友知识产权代理有限公司11127 | 代理人: | 汤在彦 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种候选页面集合的生成方法及装置,该生成方法包括抓取并分析多个网页,分别获取各网页的属性信息及正文信息;根据正文信息将各网页划分为多个类别;根据各网页的属性信息分别判断各网页是否满足预设的候选页面集合条件;将满足预设的候选页面集合条件的各网页按照类别进行存储,生成各类别的候选页面集合。通过本发明生成的候选页面集合,在能够保证候选页面的时效性的同时,也能保证候选页面的召回率及准确率,且在保证召回的同时规模只有百万量级,可有效解决相关技术中网络蜘蛛所需处理的数据量过大、需要消耗大量的时间的问题,从而提高网络蜘蛛抓取网页的效率。 | ||
搜索关键词: | 候选 页面 集合 生成 方法 装置 | ||
【主权项】:
一种候选页面集合的生成方法,其特征在于,所述的生成方法包括:步骤a:抓取并分析多个网页,分别获取各所述网页的属性信息及正文信息;步骤b:根据所述正文信息将各所述网页划分为多个类别;步骤c:根据各所述网页的属性信息分别判断各所述网页是否满足预设的候选页面集合条件;步骤d:将满足所述预设的候选页面集合条件的各所述网页按照所述类别进行存储,生成各所述类别的候选页面集合。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510919692.4/,转载请声明来源钻瓜专利网。
- 上一篇:一种传统聚落街巷水溪景观改造用机构装置
- 下一篇:一种可临时布设的无源破胎器