[发明专利]一种网页去重方法和设备有效
申请号: | 201410532559.9 | 申请日: | 2014-10-10 |
公开(公告)号: | CN105574004B | 公开(公告)日: | 2019-06-21 |
发明(设计)人: | 唐小棚;游永胜 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958 |
代理公司: | 北京睿博行远知识产权代理有限公司 11297 | 代理人: | 龚家骅 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请公开了一种网页去重方法和设备,包括:提取需要处理的网页的特征码;将所述特征码转换为key值,并在存储空间中查找是否存在所述key值;若存在,判断所述需要处理的网页的字符数与所述存储空间中所述key值对应的网页的字符数之间是否满足预设要求;若判断结果为满足,则确定所述需要处理的网页重复;本申请能实现对内容相同的网页进行有效的去重,同时能节约存储资源,并提高用户的检索体验。 | ||
搜索关键词: | 一种 网页 方法 设备 | ||
【主权项】:
1.一种网页去重方法,其特征在于,包括:提取需要处理的网页的特征码;将所述特征码转换为key值,并在存储空间中查找是否存在所述key值;若存在,判断所述需要处理的网页的字符数与所述存储空间中所述key值对应的网页的字符数之间是否满足预设要求;若判断结果为满足,则确定所述需要处理的网页重复;所述提取需要处理的网页的特征码,包括:将所述需要处理的网页的正文内容放在二维矩阵中;提取所述二维矩阵中预设区域内的内容作为特征码。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410532559.9/,转载请声明来源钻瓜专利网。
- 上一篇:扫描存储空间的方法和装置
- 下一篇:实时翻译方法及装置