[发明专利]基于查询接口属性特征的Deep Web数据表面化方法有效

专利信息
申请号: 201210191981.3 申请日: 2012-06-12
公开(公告)号: CN103257981A 公开(公告)日: 2013-08-21
发明(设计)人: 赵朋朋;鲜学丰;辛洁;郭建兵;崔志明 申请(专利权)人: 苏州大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 南京经纬专利商标代理有限公司 32200 代理人: 曹毅
地址: 215000 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 查询 接口 属性 特征 deep web 数据 表面化 方法
【说明书】:

技术领域

发明涉及一种Deep Web数据集成方法,尤其涉及一种针对Deep Web数据源的数据爬虫方法。

背景技术

随着HTML、HTTP等Web技术的逐渐成熟,Internet上的Web网站数目与网页数目都成指数级的增长。美国互联网研究机构Netcraft发布的最新调查结果显示,2012年3月份全球的活跃网站数量为644,275,754个,相比同年2月份增加了3140万个,增幅达到5.1%。此外,根据另一家互联网研究机构VeriSign的调查数据显示,2011年第四季度新增近600万个互联网域名,使得全球域名总数达到2.25亿。

另外越来越多的网站使用了网页模板技术,这使得网站数据逐步“深化”。服务器接收用户提交的查询,然后由后台数据库动态产生数据记录并填充到固定的网页模板中,使得网站中的数据不能通过预定义的超链接获取。传统的网络爬虫只是通过现有的超链接获取需要爬取的页面,因此通过网页模板生成的这部分数据对传统的搜索引擎而言是隐藏的。我们将这类网站称之为Deep Web(又称Hidden Web,Invisible Web)。而将能够通过静态超链接访问全部数据的网站称为Surface Web。

发明内容

 针对现有Deep Web数据表面化方法所存在的问题和不足,本发明的目的是提供一种基于查询接口属性特征的Deep Web数据表面化方法,从而提高数据的表面化效率。

为实现上述技术目的,达到上述技术效果,本发明通过以下技术方案实现:

基于查询接口属性特征的Deep Web数据表面化方法,包括以下步骤:

步骤1)查询接口模式信息抽取;

步骤2)清洗查询无关的属性;

步骤3)清洗垃圾属性值;

步骤4)属性分类;

步骤5)判断是否为范围型属性,若是,执行步骤6;若不是,执行步骤7;

步骤6)利用范围型属性采样,根据样本在区间上的分布,划分范围型属性区间后执行步骤11;

步骤7)判断是否为分类型属性,若是,执行步骤8;若不是,执行步骤9;

步骤8)候选属性值抽取,构建层次树,进行上溢查询,若是,执行步骤9;若不是,执行步骤11;

步骤9)判断是否为文本型属性,若是,执行步骤10;

步骤10)获取候选值,分别基于覆盖率和互信息对候选值进行筛选,后执行步骤11;

步骤11)组装查询;

步骤12)查询集合;

步骤13)判断是否达到一定覆盖度;若是,则该方法流程结束;若不是,则执行步骤14;

步骤14)判断时候查询集合为空;若是,则执行步骤15;若不是,则执行步骤16;

步骤15)将数据经领域样本库提交到样本库中,后进行步骤10的候选值的获取;

步骤16)将数据经数据爬取模块和数据记录抽取模块提交到样本库中,后进行步骤10的候选值的获取。

进一步的,层次树的构建方法如下:

a. 虚拟一个树的根节点,该节点代表了目标数据库中的全部数据记录;

b.从根节点发出的每一条边代表aq,1的一个属性值;树的第二层的第i个节点代表以aq,1=v1,i作为查询条件所得到的数据记录的集合;

c. 若查询命中的数据记录个数为0,则将其标为空节点。若查询命中的数据记录个数小于或等于k且大于0,则将其标注为有效的叶子节点;否则,若命中的数据记录个数大于k,则将其标注为上溢节点;

d. 分别以层次树中第二层的上溢节点作为根节点,按照相同的方法,选择第二个分类型属性aq,2中的候选属性值对层次树进行扩展

e. 按照同样的方式扩展层次树,直至已经构建好的层次树中不存在上溢的叶子节点,或Amulti中不存在没有被遍历的属性;

当且仅当属性序列中的属性按照其值域空间的大小升序排列,即                                                时,构建的层次树是最优的;能够使得查询提交次数最少。

进一步的,候选属性值的筛选步骤如下:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210191981.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top