[发明专利]只提供简单查询接口的深层网页数据库的分类方法无效
申请号: | 201010147339.6 | 申请日: | 2010-04-03 |
公开(公告)号: | CN101923560A | 公开(公告)日: | 2010-12-22 |
发明(设计)人: | 崔志明;鲜学丰;赵朋朋 | 申请(专利权)人: | 崔志明;鲜学丰;赵朋朋 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 苏州创元专利商标事务所有限公司 32103 | 代理人: | 陶海锋 |
地址: | 215001 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 提供 简单 查询 接口 深层 网页 数据库 分类 方法 | ||
技术领域
本发明涉及一种信息检索的方法,尤其涉及一种关于只提供简单查询接口的深层网页数据库的分类方法,用以实现关于只提供简单查询接口的深层网页数据库的自动分类。
背景技术
国际互联网上存在着大量的信息页面,通常,搜索引擎可以通过网络爬虫(Crawler)搜索到这些页面,从而使访问者能够根据关键词获取其所需要的信息页面。然而,随着Web数据库的广泛应用,国际互联网正在加速“深化”,其中的大量页面是由后台数据库动态产生的,这部分页面信息不能直接通过静态链接获取,只能通过填写表单提交查询来获取。由于传统的网络爬虫不能高效地搜索到这些页面,因此,现有的搜索引擎无法有效地提供这类数据库生成页面的信息,从而导致这部分信息对搜索引擎的使用者是隐藏、不可见的,可以称之为深层网页(Deep Web,又称为Invisible Web,Hidden Web)。深层网页是一个与表层网页(Surface Web)相对应的概念,最初由Dr.Jill Ellsworth于1994年提出,指那些由普通搜索引擎难以发现其信息内容的网页页面。深层网页信息一般存储在数据库中,和静态网页相比通常信息量更大,主题更专一,信息质量更好,信息结构化更好,增长速度更快。研究表明,深层网页信息是表层网页信息的500倍,有近450,000个深层网页站点。因而,实现大规模深层网页数据集成是方便用户使用深层网页信息的一个有效途径。
要有效地利用深层网页数据库中的信息,需要将网页按领域进行分类,如果手工地来完成对所有深层网页数据库分类是个庞大而费时的工程,因此需要以尽可能自动的方式来完成对深层网页数据库的分类,如何实现深层网页数据库的分类是深层网页数据集成中最基础也是最重要的一个问题,实现深层网页数据库的分类是实现大规模集成检索的关键问题(步骤)之一。
现有技术中,使用的分类方法大致分为两类:pre-query和post-query。Pre-query基本依赖于深层网页数据库表单(forms)的可视特征和表单所在页面的信息,表单可视化特征主要包括数据库表单中的属性标签和其他可利用信息。文献Peng Q,Meng WY,He H,Yu C.WISE-Cluster:Clusteringe-commerce search engines automatically[C].In:Proc.of the 6th ACMInt′l Workshop on Web Information and Data Management.Washington:ACM Press,2004.104-111.针对应用意义最广泛的电子商务的深层网页数据库提出了一种有效的分类方法,主要利用了电子商务的深层网页数据库的查询接口所在页面上的可用特征信息。文献He B,Tao T,Chang KCC.Clustering structured Web sources:A schema-based,model-differentiationapproach[C].In:Proc.of the 9th Int′l Conf.on Extending DatabaseTechnology.Heraklion:Springer-Verlag,2004.536-546.根据统计特性认为查询接口的模式信息可以作为对深层网页数据库分类的依据,基于这样的统计结论,提出了完全利用查询接口的模式信息的一种更一般的深层网页数据库分类解决方案。通过建立概率模型来表示所有可能出现的属性在每个领域中出现的可能性,对于一个给定的查询接口,考察其属性集合,在这个模型上计算出这个查询接口与每个领域的相似性。但是当深层网页数据库只提供简单查询接口(只包含一个文本输入框)时,则这些分类方法不能对深层网页数据库进行有效分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于崔志明;鲜学丰;赵朋朋,未经崔志明;鲜学丰;赵朋朋许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010147339.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于情境流的文件管理方法
- 下一篇:一种基于CLB总线的存储器接口方法