[发明专利]一种划分网页语义模块的方法有效
申请号: | 201410243493.1 | 申请日: | 2014-06-03 |
公开(公告)号: | CN103984770B | 公开(公告)日: | 2017-02-22 |
发明(设计)人: | 袁运来 | 申请(专利权)人: | 袁运来 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京苏高专利商标事务所(普通合伙)32204 | 代理人: | 李玉平 |
地址: | 210000 江苏省南京市雨*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种划分网页语义模块的方法,在划分语义模块时,估算所应达到的最深节点,由该层节点自下而上,根据相似度计算逐层推算出语义模块的顶层节点集合。本发明漏删和误删率较低;处理速度快,不但不影响网页显示速度,有些情况下还可以提高网页显示速度;所需系统资源少,可广泛应用于各种系统包括对硬件成本很敏感的移动设备和路由器等平台。 | ||
搜索关键词: | 一种 划分 网页 语义 模块 方法 | ||
【主权项】:
一种划分网页语义模块的方法,其特征在于:设网页上每个语义模块单元都包含一条能在当前网页内代表这个语义模块的超链接,则每个语义模块必包含具有如下两个特征的节点:a.包含至少一条有效的超链接的节点,记为Nu;b.敏感词所在的节点,记为Nw;或者敏感词的上级节点,记为Nt;并且:1)Nu和Nt相同或者为兄弟节点;2)如Nt!=Nu,则Nt不含有效的超链接;3)如Nt==Nu,则Nu为dom树根节点或者至少有一个兄弟节点也包含有效的超链接;4)如Nt==Nu,则Nu必须是所有满足以上条件的节点中最深层的节点;确定Nt节点的位置,将Nt节点在dom树所处的层次作为语义分割的最底层,由此层起自下而上的通过相似度和权重计算识别语义模块;该方法基于如下两条规律:规律一:每个网页的内容都是不同的,在语义上都是独立的,而每个网页对应一个URL,因此,每个URL都代表一个独立的语义单元;规律二:网页上的每个语义模块都会包含一个或多个超链接;如果一个语义模块是完整的,则会有包含作者信息的超链接;如果一个语义模块不完整,则必然会包含指向完整语义网页的超链接。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于袁运来,未经袁运来许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410243493.1/,转载请声明来源钻瓜专利网。
- 上一篇:电机牵引器的防反转用装置
- 下一篇:一种钢球渣回收装置