[发明专利]基于排名网站的互联网排行榜抓取系统有效
申请号: | 201210580975.7 | 申请日: | 2012-12-27 |
公开(公告)号: | CN103020286A | 公开(公告)日: | 2013-04-03 |
发明(设计)人: | 朱其立;张至先 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 郭国中 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种互联网排行榜抓取系统,包括将HTML格式的网页解析成为基于文件物件模型的树状数据结构(DOM Tree)的网页预处理模块;判断该网页是否为一个排名网页的标题识别模块;基于HTML标签路径的聚类分析的候选列表排行榜选取模块;基于内容匹配和网页布局的排行榜选取模块;以及排行榜内容后期处理模块。本发明可以针对互联网排行榜这种特殊的网络列表进行快速准确的自动提取,有效挖掘其潜在价值。 | ||
搜索关键词: | 基于 排名 网站 互联网 排行榜 抓取 系统 | ||
【主权项】:
一种基于排名网站的互联网排行榜抓取系统,其特征在于,包括依次连接的网页预处理模块、网页标题识别模块、候选列表抓取模块、排行榜选取模块以及排行榜内容后期处理模块,候选列表抓取模块的输入为网页预处理模块和网页标题识别模块的输出,其中:网页预处理模块,用于将HTML格式的输入网页解析成为基于文件物件模型的树状数据结构,以便提供给网页标题识别模块和候选列表抓取模块进行后续处理;网页标题识别模块,用于对网页标题进行语法分析,然后用基于机器学习方法生成的模型进行分类,判断该网页是否为一个排名网页,其中:如果判断该网页为普通网页,则系统输出判断结果,中断退出;如果判断该网页为排名网页,则提取该网页中排行榜的领域、标准、列表项个数和时间地点信息,并提供给候选列表抓取模块进行后续处理;候选列表抓取模块,用于在网页预处理模块中得到的树状数据结构进行基于HTML标签路径的聚类分析,获得多个候选列表,候选列表的列表项个数应当与网页标题识别模块中提取到的列表项个数相同,如果没有合适的候选列表,则判定该排行榜抓取失败,系统输结果,中断退出,否则由排行榜选取模块进行后续处理;排行榜选取模块,用于通过多种评价标准对多个候选列表进行打分,并选择得分最高的候选列表为该输入网页的排行榜列表,评价标准包括:网页标题的关联程度、在网页中的空间位置、规则模式匹配;排行榜内容后期处理模块,用于对排行榜选取模块选取获得的排行榜内容进行进一步处理,将每一个列表项的实例名与其对应的属性特征来进行分离,最终得到一个关系数据表。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210580975.7/,转载请声明来源钻瓜专利网。
- 上一篇:石墨反应釜
- 下一篇:一种网页的控制方法及浏览器