[发明专利]一种基于高频字图模型的Deep Web数据爬取方法无效
申请号: | 201110246903.4 | 申请日: | 2011-08-25 |
公开(公告)号: | CN102289502A | 公开(公告)日: | 2011-12-21 |
发明(设计)人: | 禹晓辉;闫中敏;彭朝晖 | 申请(专利权)人: | 山东英佰德信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 张勇 |
地址: | 250101 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于高频字图模型的DeepWeb数据爬取方法,其特征是,该方法的实现步骤如下:步骤1:统计获得属性高频字列表和属性高频字覆盖率图;步骤2:将属性高频字列表中的第一个汉字用作查询关键字;步骤3:查询接口向Web数据库提交查询请求;步骤4:Web数据库响应查询请求,将查询结果集合组织为DeepWeb动态页面;步骤5:获取相应的DeepWeb页面,得到结构化数据记录,将这些记录放入本地数据库;步骤6:如果查询覆盖率达到δ则转步骤7;步骤7:选择新数据获取率最高的一个汉字wi用作查询关键字,继续执行步骤3-5获取wi提交之后返回的查询结果,再转步骤7选择下一个查询关键字,直至数据爬取结束。 | ||
搜索关键词: | 一种 基于 高频 模型 deep web 数据 方法 | ||
【主权项】:
一种基于高频字图模型的Deep Web数据爬取方法,其特征是,该方法的实现步骤如下:步骤1:使用采样数据库和汉字频度表作为输入,统计获得属性高频字列表和属性高频字覆盖率图;步骤2:将属性高频字列表中的第一个汉字用作查询关键字;步骤3:根据查询关键字,查询接口向Web数据库提交查询请求;步骤4:Web数据库响应查询请求,将查询结果集合组织为Deep Web动态页面;步骤5:获取相应的Deep Web页面,得到结构化数据记录,将这些记录放入本地数据库;步骤6:如果查询覆盖率达到δ则转步骤7,否则对每一个候选汉字统计属性高频字覆盖率图模型中已提交字的覆盖率之和,其值最小的为最佳查询汉字,然后继续执行步骤3‑5获取最佳查询汉字提交之后返回的查询结果,再转入步骤6选择下一个查询关键字;步骤7:估算在Web数据库中匹配每一个候选汉字的所有记录数,从而获得估算的新数据获取率,选择新数据获取率最高的一个汉字用作查询关键字,继续执行步骤3‑5获取该查询关键字提交之后返回的查询结果,再转步骤7选择下一个查询关键字,直至数据爬取结束。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东英佰德信息科技有限公司,未经山东英佰德信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110246903.4/,转载请声明来源钻瓜专利网。