[发明专利]基于属性重现和标签路径的网页抽取方法无效
申请号: | 201210097167.5 | 申请日: | 2012-04-05 |
公开(公告)号: | CN102760150A | 公开(公告)日: | 2012-10-31 |
发明(设计)人: | 尹刚;王怀民;李翔;朱沿旭;史殿习;王涛;袁霖;余跃 | 申请(专利权)人: | 中国人民解放军国防科学技术大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
地址: | 410073 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 属性 重现 标签 路径 网页 抽取 方法 | ||
1.一种基于属性重现和标签路径的网页抽取方法方法,包括下列步骤:
步骤1、搭建种子集合,通过抽取目标网站或同领域其它网站中的属性值列表页面,构建属性值种子集合,集合中包含了目标属性的部分取值。
步骤2、抽取相对标签路径,获取目标网站部分样本页面,使用HTML解析工具,以属性名及其属性值为输入,分别查找其对应的标签节点,抽取目标网站中各属性在属性名和值之间的相对标签路径;
步骤3、构建训练样本库,使用网络爬虫下载目标网站中的部分网页,样本数大于一预先设定值,将获取的HTML源代码存放到本地数据库。
步骤4、属性标注,根据种子集合中的种子属性值对训练样本库应用字符串相似匹配,查找并标注每一个种子属性值在训练网页中的所有重现,记录每次重现对应的标签路径。
步骤5、标签路径选取,对同一属性网页支持度最高的标签路径,作为抽取训练样本外其它网页信息的抽取规则;
步骤6、属性定位与抽取。应用所获取的标签路径,从各自的根节点出发访问目标网站中的其他网页HTML树,定位属性值所在的标签,抽取其中包含的文本字符串;
步骤7、属性名验证,借助属性名-属性值相对标签路径,获取步骤6中属性值对应的属性名,并采用字符串匹配与真实属性名进行比对,删除没有属性名或拥有错误属性名的属性值,将正确属性值存储到本地数据库,完成对页面属性的属性值抽取。
2.如权利要求1所述的方法,其中所述步骤4进一步包括:
步骤401、字符串相似匹配,将参与匹配的两字符串转换为统一的小写格式,并进一步生成其q-gram集合,其中q为正整数,计算两字符串对应q-gram集合的雅加达(Jaccard)系数作为两字符串匹配度数值,该数值若高于预定义的某阈值则认为匹配;
步骤402、属性标注及标签路径记录,根据字符串相似匹配的结果,标注一个种子属性值在训练网页中的所有重现,记录每次重现对应的标签路径。
3.如权利要求1所述的方法,其中所述网页支持度最高是指同一属性在该位置出现的次数最多。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210097167.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:含氟代酸或其盐的废水的处理
- 下一篇:计算机周边的非接触式感应装置及其方法