[发明专利]一种网页内容的提取方法、装置和设备无效
| 申请号: | 201210497275.1 | 申请日: | 2012-11-28 | 
| 公开(公告)号: | CN103020179A | 公开(公告)日: | 2013-04-03 | 
| 发明(设计)人: | 左景龙;徐国市;张少伟 | 申请(专利权)人: | 北京小米科技有限责任公司 | 
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 | 
| 代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 | 
| 地址: | 100102 北京市朝阳区*** | 国省代码: | 北京;11 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 网页 内容 提取 方法 装置 设备 | ||
技术领域
本发明实施例涉及网页技术领域,特别是涉及一种网页内容的提取方法,一种网页内容的提取装置,以及一种设备。
背景技术
网站除了向用户提供新闻、图片等网页内容时,出于盈利、推广等目的,也经常会在网页上布置一些广告、推荐信息等与网页正文内容无关的信息。
现今,网页上层出不穷的广告给用户的浏览网页带来了很大的干扰,尤其是用户在移动终端上浏览网页时,由于移动终端的屏幕较小,而广告还需要占用一部分位置。为了避免这种情况,部分浏览器会提供给用户阅读模式的功能,也即,当用户浏览一个网页时,选择阅读模式后,浏览器会自动提取网页预设内容,例如包括网页的题目,正文内容等,只将网页预设内容展示给用户,而不显示广告等内容。
目前,在识别网页预设内容时,通常是采用分析整个网页文档(例如HTML文档)方法来提取。具体而言,首先根据将网页文档划分为多个文本块,然后依据各个文本块所包含的文字内容判断是否可以作为网页预设内容,然后将网页预设内容提取出来重新排版显示给用户。
以上背景技术中存在的问题是:
1、在提取网页预设内容的过程中,需要遍历整个网页文档的全部内容,针对各个文本块进行判断时,需要进行大量的计算,提取效率比较低;
2、在移动终端的硬件配置不高的情况下,大量的计算操作会产生对移动终端的性能影响。
发明内容
本发明实施例提供了一种网页内容的提取方法,以提高网页预设内容的提取效率。
本发明实施例还提供了一种网页内容的提取装置,以及,一种设备,用以保证上述方法在实际中的应用及实现。
为了解决上述问题,本发明实施例公开了一种网页内容的提取方法,包括:
提取第一网页的第一预设内容,并记录所述第一网页的第一属性信息和所述第一预设内容对应的第一特征信息;
在访问第二网页时,确定所述第二网页的第二属性信息与所述第一属性信息一致,
按照所述第一特征信息提取所述第二网页的第二预设内容。
较佳的,所述第一属性信息和第二属性信息为网页所对应的全部网页文档或预设部分网页文档的模板信息。
较佳的,所述模板信息包括网页文档中所包含的依次排列的各个节点标识。
较佳的,所述确定所述第二网页的第二属性信息与所述第一属性信息一致的步骤,采用如下方式:
依次对比所述第二网页与所述第一网页的全部或预设部分网页文档中的各个节点标识;
确定各个节点标识的名称均相同,并且节点标识的个数也相同,则所述第二属性信息与第一属性信息一致。
较佳的,所述第一特征信息为所述第一预设内容中所对应的依次排列的节点标识,所述按照第一特征信息提取第二网页的第二预设内容的步骤,采用如下方式:
在第二网页对应的网页文档中,查找与所述第一特征信息具备相同节点标识的节点;
提取所述节点中的节点内容作为第二网页的第二预设内容。
较佳的,所述提取第一网页的第一预设内容的步骤,采用如下方式:
提取第一网页的网页文档中各个节点的节点标识;
确定所述节点标识为预设标识,将所述节点标识对应的节点内容提取出来作为第一预设内容。
较佳的,所述预设部分网页文档为预设节点之后的网页文档。
本发明实施例还提供了一种网页内容的提取装置,包括:
信息记录模块,用于提取第一网页的第一预设内容,并记录所述第一网页的第一属性信息和所述第一预设内容对应的第一特征信息;
确定模块,用于在访问第二网页时,确定所述第二网页的第二属性信息与所述第一属性信息一致;
预设内容提取模块,用于按照所述第一特征信息提取所述第二网页的第二预设内容。
较佳的,所述第一属性信息和第二属性信息为网页所对应的全部网页文档或部分网页文档的模板信息。
较佳的,所述模板信息包括网页文档中所包含的依次排列的各个节点标识。
较佳的,所述确定模块包括:
节点标识对比子模块,用于依次对比所述第二网页与所述第一网页的全部或预设部分网页文档中的各个节点标识;
节点标识确定子模块,用于确定各个节点标识的名称均相同,并且节点标识的个数也相同,则所述第二属性信息与第一属性信息一致。
较佳的,所述第一特征信息为所述第一预设内容中所对应的依次排列的节点标识,所述预设内容提取模块包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京小米科技有限责任公司,未经北京小米科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210497275.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:枣仁甘草茶
 - 下一篇:一组金樱子敛气固脱片
 
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
 - 内容记录系统、内容记录方法、内容记录设备和内容接收设备
 - 内容服务系统、内容服务器、内容终端及内容服务方法
 - 内容分发系统、内容分发装置、内容再生终端及内容分发方法
 - 内容发布、内容获取的方法、内容发布装置及内容传播系统
 - 内容提供装置、内容提供方法、内容再现装置、内容再现方法
 - 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
 - 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
 - 内容再现装置、内容再现方法、内容再现程序及内容提供系统
 - 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法
 





