[发明专利]基于云平台的消除近似重复网页方法在审
| 申请号: | 201310537406.9 | 申请日: | 2013-11-04 |
| 公开(公告)号: | CN103559259A | 公开(公告)日: | 2014-02-05 |
| 发明(设计)人: | 向阳;陈佑雄;张依杨;平宇;张波;袁书寒 | 申请(专利权)人: | 同济大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 上海东亚专利商标代理有限公司 31208 | 代理人: | 陈树德;刘莹 |
| 地址: | 200092 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 平台 消除 近似 重复 网页 方法 | ||
技术领域
本发明涉及基于云平台的消除近似重复网页方法。
背景技术
利用搜索引擎检索新闻、博客或RSS阅读器的人可能会时常遭遇信息过载和重复的问题,经常能看到一个事件发生之后每个网页的内容基本相同,观点相同的文章。重复的信息过多,导致用户花大量的时间阅读重复的信息。
以Google为例,Googlebot网页爬虫每天都会爬取大约200亿个网页,而在总量上,它追踪着300亿个左右的独立URL链接。如此庞大的数据量之中网页质量难免参差不齐,查询时返回给用户的信息存在大量的重复,很多时候用户找不到所需要的信息。目前的搜索引擎没有很好的解决这个问题。例如在Google输入“iPad mini发布 搭载苹果A5双核未配Retina 进行搜索,在搜索结果显示中第一页10个条目中有9条内容是重复的,而大多数人关心的恰恰是第一页的搜索结果。
搜索最大的问题主要来自三个方向:搜索质量的问题;搜索用户体验的问题;以及整个搜索生态系统的问题。搜索的质量是搜索引擎竞争的关键,大量重复的网页对于搜索质量的影响是致命的。多的重复网页既浪费抓取时间又浪费存储空间。尤其在建立索引时必须对大量的重复网页建立索引,也使倒排文件变得庞大,影响提供查询服务时的响应速度。如果能够找出这些重复网页并从网页数据库中去掉,就能够节省一部分存储空间,进而可以利用这部分空间来存放更多的有效网页内容来进行增量收集,同时也提高了web页面检索质量。所以,如何高效、准确的去掉重复的网页,提高检索效率,增加用户的检索体验是我们所要解决的问题。
在当前大数据时代悄然来临的背景下,应当从处理数据和信息的过程中发掘其背后的商业价值。网络中大量的网页重复现象给互联网应用如搜索引擎带来了资源的浪费、索引负担重、影响服务效果等问题。如何有效、准确的将重复网页去掉,对挖掘节约带宽、提高挖掘的速率、挖掘时效性强的资源等都有重要的意义。
发明内容
本发明所要解决的技术问题是要提供一种能最大程度地减少近似重复网页的基于云平台的消除近似重复网页方法。
为了解决以上的技术问题,本发明提供了一种基于云平台的消除近似重复网页方法,其特征在于:
该方法包括以下步骤:
⑴网页预处理,提取网页正文;
⑵在正文中提取特征项用于表征正文内容;
⑶计算特征项的指纹,对特征项进行压缩或降维处理以方便存储和检索;
⑷基于特征指纹计算相似度,判定原始网页是否近似。
上述步骤⑴、⑵、⑶是对给定的网页进行预处理,并将网页正文表示为分块指纹集合的过程,这一阶段的算法步骤如下:
步骤①:网页预处理,去除网页噪声,提取网页正文;
具体的正文提取方法使用基于加权DOM树的网页正文提取算法。
步骤②:对网页正文中待处理的自然分块,以标点符号作为分隔符,如“,”、“。”、“?”和“!”作为分隔符分块划分为多个句子,在这些句子中提取字数不少于k个字的长句作为分块的特征项,对每个提取的长句,根据网页的主题语义及长句自身特性计算其权重;
步骤③:利用分块的加权长句计算分块指纹,并将分块指纹加入正文的分块指纹集;
步骤④:若还有新的分块,则转到上述步骤②继续对新分块进行长句提取和指纹计算;若全文结束,则这一阶段结束,得到全文的分块指纹集合。
上述步骤⑷是对已得到的分块集合进行相似度计算,并依此判定它们的正文是否近似,步骤如下:
步骤①:设近似阈值为r;
步骤②:计算相似度,若相似度>r,则判定是近似网页;否则,不是近似网页。
准确的正文提取是进行近似检测的重要前提,能够同现有的网页搜集系统较好的整合,同时通过实验验证具备较高的有效性和准确性,并且处理效率上得到了明显的提高。
与现有技术相比,本发明具有以下优点:
(1)针对相似网页去重的应用,利用网页分块和主题信息提取技术,提取网页的特征向量。网页分块主要基于DOM语法树对其中的内容节点合并成大粒度的网页块;主题内容块的提取方法主要基于文本相似度的比较,同时通过Bayes 方法计算后验概率进行优化改进。通过上述处理,可以完成对影响网页去重的网页噪音信息的去除、文本内容的词项切分、网页特征向量的提取,较以往方法性能有明显提升;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310537406.9/2.html,转载请声明来源钻瓜专利网。





