[发明专利]轻量级智能网页内容解析方法有效
申请号: | 201010126329.4 | 申请日: | 2010-03-18 |
公开(公告)号: | CN101819584A | 公开(公告)日: | 2010-09-01 |
发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 上海引跑信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 201203 上海市浦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明为网页内容解析提供了一种通用的轻量级智能解析方法,可以对文章类(如新闻、博客、论坛等)网页进行有效的内容解析。步骤如下:首先,下载网页HTML源码并将其转换成结构化数据模型;其次,分析结构化数据模型,收集用于定位主体内容的数据;再次,利用收集的数据,对数据模型进行进一步分析,定位主体内容(如新闻内容、博客文章、论坛主题和回复等)所在的位置;最终,分析获取的主体内容模型,去除无用信息,得到主体内容。此外,通过交互式界面,用户可对解析结果进行合并、编辑、保存、索引,相当于为用户建立了网页内容资料库,供后期的检索使用。这种方式,有效的将分析技术、存在特性、人工干预加以结合,提供更加贴近用户的功能。 | ||
搜索关键词: | 轻量级 智能 网页 内容 解析 方法 | ||
【主权项】:
一种轻量级智能网页内容解析方法,其特征在于:1)从因特网获取网页的HTML源码。2)利用HTML源码的结构化、层次化特性,构建数据对象。同时对不完整的HTML源码进行补充。3)遵循网页构建时候的基本特征和开发者的常规习惯,利用文章类(如新闻、博客、论坛等)网页的基本特征,对网页的主体内容进行定位和解析。4)获取的网页主体内容,可通过浏览器查看、编辑、保存、索引。5)可以定制任务,定时更新结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海引跑信息科技有限公司,未经上海引跑信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201010126329.4/,转载请声明来源钻瓜专利网。
- 上一篇:一种层叠式水果运输物流箱
- 下一篇:一种节能定时寿司保鲜盒
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法