[发明专利]一种网页内容识别方法和装置有效
申请号: | 201210349276.1 | 申请日: | 2012-09-19 |
公开(公告)号: | CN102902749A | 公开(公告)日: | 2013-01-30 |
发明(设计)人: | 张戈;徐建忠 | 申请(专利权)人: | 北京易云剪客科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100045 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 内容 识别 方法 装置 | ||
技术领域
本发明涉及互联网领域,特别是涉及一种网页内容识别方法和装置。
技术背景
互联网上每秒钟都有大量的网页产生,这些网页又由各种内容构成,用户要在海量内容找到有价值的内容(有效内容),其实是相当有难度的。
为此,需要有一种方法,可以智能地识别出网页中的有效内容部分,以推介给用户,更好地提高用户的阅读体验。
发明内容
有鉴于此,本发明实施例提供一种网页内容识别方法和装置,智能地识别出海量网页中的有效内容。为了达到上述目的,本发明实施例提供的一种网页内容识别方法,包括:
记录下每个用户对网址地址中网页模块的标记行为;
检测当前用户所请求的网页地址是否被数量达到预定阈值的用户标记过,是则将记录的被最多用户标记过的内容模块作为该网页地址的有效内容;否则
检查网页地址的上一级网址以及所述上一级网址所具有的其他子网址是否被数量达到用户数阈值用户标记过,直至到达顶级域名;是则将所述网页地址的上一级网址以及该上一级网址所具有的其他子网址中被最多用户标记过的内容模块作为网页地址对应的有效内容。
为了达到上述目的,本发明实施例提供的网页内容识别装置,包括:
记录模块,用于记录下每个用户对网址地址中网页模块的标记行为;
检测模块,用于检测当前用户所请求的网页地址、网页地址的上一级网址以及所述上一级网址所具有的其他子网址是否被数量达到用户数阈值用户标记过,直至到达顶级域名,并当检测结果为是时,通知推介模块。
推介模块,用于将所述网页地址中被最多用户标记过的内容模块作为该网页地址的有效内容;或将所述网页地址的上一级网址以及该上一级网址所具有的其他子网址中被最多用户标记过的内容模块作为网页地址对应的有效内容。
利用本发明实施例提供的网页内容识别方法和装置,可在积累和分析大量用户对同一域名下同类网页模块标记行为的基础上,智能地识别出海量网页中的有效内容。
附图说明
图1是本发明实施例中提供的网页内容识别的方法流程图。
图2是本发明实施例中提供的网页内容识别的装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
本发明实施例提供的网页方法和装置,记录大量用户对同一域名同类网页内容的标记行内容识别为,基于对大量用户标记行为的分析,确定同类网页中有效内容所在的网页模块。
图1是本发明实施例中提供的网页内容识别的方法流程图。如图1所示,该方法包括:
步骤100:记录下每个用户对网页模块的标记行为。
本发明实施例首先基于对大量用户对同类网页的标记行为的记录。每一个HTML网页都可以利用DOM(Document Object Model,文档对象模型)来描述,利用DOM可以将每个HTML网页看成是一棵拥有许多节点(DOM节点)的树。每一个DOM节点都对应HTML网页中的一部分内容,另外,每一个DOM节点都可以利用Xpath(路径表达式)信息来表示。这里,Xpath可以描述从一个DOM节点到另一个节点、或一组节点的步骤顺序,其本质上可以确认每个节点各自在网页中所占据的方位。
当用户选择对网页某一部分内容进行标记时,记录下用户所标记的网页内容对应DOM节点信息。在本发明一实施例中,即记录用户所标记的网页内容对应的一个或者一组XPath信息。采用网页模块所对应的HTML的DOM节点树中的Xpath地址作为网页模块的标记。
步骤101:当前用户请求一网页地址时,检测当前用户所请求的网页地址是否被数量达到预定阈值的用户标记过,若是,转向步骤102;否则转向步骤103。
本步骤中,所述是否被数量达到预定阈值的用户标记过指的是,系统是否记录下达到预定阈值的用户对该网页地址内容的标记行为。
本领域技术人员可以理解,可以根据系统所支持用户的情况以及其他原因,可以人为地设定或修改预定阈值的值。
步骤102:将记录的被最多用户标记过的内容模块作为该网页地址的有效内容,推介给用户;结束该流程。
本步骤中,如果该网页地址中某一个DOM节点被数量最多的用户标记过,则可以认为该DOM节点对应的内容为该网页地址的有效内容。当然,在本发明一实施例中,也可以同时将多个DOM节点对应的内容作为有效内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京易云剪客科技有限公司,未经北京易云剪客科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210349276.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种车身连接件及组合连接件
- 下一篇:一种定位夹紧机构
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法