[发明专利]一种划分网页语义模块的方法有效

专利信息
申请号: 201410243493.1 申请日: 2014-06-03
公开(公告)号: CN103984770B 公开(公告)日: 2017-02-22
发明(设计)人: 袁运来 申请(专利权)人: 袁运来
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 南京苏高专利商标事务所(普通合伙)32204 代理人: 李玉平
地址: 210000 江苏省南京市雨*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种划分网页语义模块的方法,在划分语义模块时,估算所应达到的最深节点,由该层节点自下而上,根据相似度计算逐层推算出语义模块的顶层节点集合。本发明漏删和误删率较低;处理速度快,不但不影响网页显示速度,有些情况下还可以提高网页显示速度;所需系统资源少,可广泛应用于各种系统包括对硬件成本很敏感的移动设备和路由器等平台。
搜索关键词: 一种 划分 网页 语义 模块 方法
【主权项】:
一种划分网页语义模块的方法,其特征在于:设网页上每个语义模块单元都包含一条能在当前网页内代表这个语义模块的超链接,则每个语义模块必包含具有如下两个特征的节点:a.包含至少一条有效的超链接的节点,记为Nu;b.敏感词所在的节点,记为Nw;或者敏感词的上级节点,记为Nt;并且:1)Nu和Nt相同或者为兄弟节点;2)如Nt!=Nu,则Nt不含有效的超链接;3)如Nt==Nu,则Nu为dom树根节点或者至少有一个兄弟节点也包含有效的超链接;4)如Nt==Nu,则Nu必须是所有满足以上条件的节点中最深层的节点;确定Nt节点的位置,将Nt节点在dom树所处的层次作为语义分割的最底层,由此层起自下而上的通过相似度和权重计算识别语义模块;该方法基于如下两条规律:规律一:每个网页的内容都是不同的,在语义上都是独立的,而每个网页对应一个URL,因此,每个URL都代表一个独立的语义单元;规律二:网页上的每个语义模块都会包含一个或多个超链接;如果一个语义模块是完整的,则会有包含作者信息的超链接;如果一个语义模块不完整,则必然会包含指向完整语义网页的超链接。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于袁运来,未经袁运来许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201410243493.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top