[发明专利]网页抽取准确性计算方法及系统有效
申请号: | 201110048960.1 | 申请日: | 2011-03-01 |
公开(公告)号: | CN102654861B | 公开(公告)日: | 2017-12-08 |
发明(设计)人: | 朱靖君;林世飞;张立明 | 申请(专利权)人: | 深圳市世纪光速信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州华进联合专利商标代理有限公司44224 | 代理人: | 何平,曾旻辉 |
地址: | 518057 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 抽取 准确性 计算方法 系统 | ||
【技术领域】
本发明涉及网页搜索技术,尤其涉及一种网页抽取准确性计算方法及系统。
【背景技术】
在网页搜索中,网页抽取是其中一个非常关键的环节。网页抽取是指搜索引擎从抓取的网页中抽取出文本和链接等信息,并建立索引,抽取到的链接用于继续抓取新的网页,而抽取到的文本用于用户查询时进行关键词匹配,以返回与查询词相关的网页作为查询结果。因此,网页抽取的准确性极大的影响着搜索引擎的检索质量。
在网页抽取中,通常把网页表示成DOM(Document Object Model,文档对象模型)DOM树的形式。所谓DOM树,是指在网页抽取中,把HTML(HyperTextMark-up Language,超文本标记语言)网页中的链接、文本等表示成节点,并把链接、文本等的包含与被包含关系映射为父子节点的关系,最后构成的树形结构即为DOM树。对DOM树进行遍历,就能得到网页中的文本和链接等信息。
因此,DOM树的准确性反映了网页抽取的准确性。
传统的网页抽取准确性计算方法是输出抽取到的文本和链接,人工地在浏览器中打开相应的页面进行观察,看抽取的结果是否正确。或者以一定的形式输出DOM树,包括DOM树中各个节点的信息,再人工判断DOM树是否准确。然而,传统的这种网页抽取准确性计算方法由于采用人工观察网页或人工判断DOM树是否准确,因此不能自动化的批量测试,只能测试限量的页面,而有限的网页测试则无法保证网页抽取的准确性。因此,传统的网页抽取准确性计算方法不能有效反映真实效果。
【发明内容】
基于此,有必要提供一种无需人工参与,能进行批量测试,并且测试结果能有效反映网页抽取的准确性的网页抽取准确性计算方法。
一种网页抽取准确性计算方法,包括以下步骤:获取浏览器对网页解析的结果;获取待测网页抽取模块对网页解析的结果;计算所述待测网页抽取模块解析的结果与浏览器解析的结果的相似度,相似度越大,则所述待测网页抽取模块进行网页抽取的准确性越高。
优选的,所述待测网页抽取模块解析的结果包括解析网页得到的第一可见文本集合、第一链接集合和第一锚文本集合,所述浏览器解析的结果包括浏览器解析网页得到的第二可见文本集合、第二链接集合和第二锚文本集合;
所述计算待测网页抽取模块解析的结果与浏览器解析的结果的相似度的步骤为:计算第一可见文本集合与第二可见文本集合的相似度;计算第一链接集合与第二链接集合的相似度;计算第一锚文本集合与第二锚文本集合的相似度;对所述第一可见文本集合与第二可见文本集合的相似度、所述第一链接集合与所述第二链接集合的相似度、所述第一锚文本集合与第二锚文本集合的相似度按第一预设比例求和。
优选的,该计算第一可见文本集合与第二可见文本集合的相似度的步骤为:对所述第一可见文本集合中的文本进行切词,统计每个词出现的次数,建立第一词频向量;对所述第二可见文本集合中的文本进行切词,统计每个词出现的次数,建立第二词频向量;计算所述第一词频向量与所述第二词频向量的相似度,即为所述第一可见文本集合与第二可见文本集合的相似度。
优选的,按照如下公式计算第一链接集合与第二链接集合的相似度:所述第一链接集合与所述第二链接集合的相似度为:所述第一链接集合和所述第二链接集合中相同的链接数的倍数与所述第一链接集合及第二链接集合中的链接总数的比值。
优选的,所述计算第一锚文本集合与第二锚文本集合的相似度的步骤为:提取所述第一锚文本集合与第二锚文本集合中具有相同链接的锚文本;计算每个相同链接所对应的第一锚文本与第二锚文本的相似度,对该相似度求平均值;将第一锚文本集合中的锚文本通过间隔符按顺序连接起来,生成第一文本串;将第二锚文本集合中的锚文本通过间隔符按顺序连接起来,生成第二文本串;计算所述第一文本串和第二文本串的相似度;对所述第一文本串和第二文本串的相似度与所述平均值按第二预设比例求和。
此外,还有必要提供一种无需人工参与,能进行批量测试,并且测试结果能有效反映网页抽取的准确性的网页抽取准确性计算系统。
一种网页抽取准确性计算系统,包括:浏览器,用于对网页进行解析;待测网页抽取模块,用于对网页进行解析;解析结果对比模块,用于获取浏览器对网页的解析结果及所述待测网页抽取模块对网页的解析结果,计算所述待测网页抽取模块解析的结果与浏览器解析的结果的相似度,相似度越大,所述待测网页抽取模块进行网页抽取的准确性越高。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市世纪光速信息技术有限公司,未经深圳市世纪光速信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110048960.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种步进式切片装置
- 下一篇:焦炉煤气制取液化天然气的方法