[发明专利]基于属性重现和标签路径的网页抽取方法无效

专利信息
申请号: 201210097167.5 申请日: 2012-04-05
公开(公告)号: CN102760150A 公开(公告)日: 2012-10-31
发明(设计)人: 尹刚;王怀民;李翔;朱沿旭;史殿习;王涛;袁霖;余跃 申请(专利权)人: 中国人民解放军国防科学技术大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京安博达知识产权代理有限公司 11271 代理人: 徐国文
地址: 410073 湖南*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种基于属性重现和标签路径的网页抽取方法,包括:通过抽取目标网站或的属性值列表页面,构建属性值种子集合,其中包含了目标属性的部分取值;获取部分样本页面,确定各属性在属性名和值之间的相对标签路径;下载部分网页构建训练样本库,将获取的代码存放到本地数据库;查找并标注每一个种子属性值在训练网页中的所有重现,记录每次重现对应的标签路径;以对同一属性网页支持度最高的标签路径,作为抽取训练样本外其它网页信息的抽取规则;用所获取的标签路径,访问目标网站中的其他网页HTML树,定位属性值所在标签,抽取文本字符串;删除没有属性名或拥有错误属性名的属性值,将正确属性值存储到本地数据库,从而完成对页面属性的属性值抽取。
搜索关键词: 基于 属性 重现 标签 路径 网页 抽取 方法
【主权项】:
一种基于属性重现和标签路径的网页抽取方法方法,包括下列步骤:步骤1、搭建种子集合,通过抽取目标网站或同领域其它网站中的属性值列表页面,构建属性值种子集合,集合中包含了目标属性的部分取值。步骤2、抽取相对标签路径,获取目标网站部分样本页面,使用HTML解析工具,以属性名及其属性值为输入,分别查找其对应的标签节点,抽取目标网站中各属性在属性名和值之间的相对标签路径;步骤3、构建训练样本库,使用网络爬虫下载目标网站中的部分网页,样本数大于一预先设定值,将获取的HTML源代码存放到本地数据库。步骤4、属性标注,根据种子集合中的种子属性值对训练样本库应用字符串相似匹配,查找并标注每一个种子属性值在训练网页中的所有重现,记录每次重现对应的标签路径。步骤5、标签路径选取,对同一属性网页支持度最高的标签路径,作为抽取训练样本外其它网页信息的抽取规则;步骤6、属性定位与抽取。应用所获取的标签路径,从各自的根节点出发访问目标网站中的其他网页HTML树,定位属性值所在的标签,抽取其中包含的文本字符串;步骤7、属性名验证,借助属性名‑属性值相对标签路径,获取步骤6中属性值对应的属性名,并采用字符串匹配与真实属性名进行比对,删除没有属性名或拥有错误属性名的属性值,将正确属性值存储到本地数据库,完成对页面属性的属性值抽取。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201210097167.5/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top