[发明专利]一种基于网页语义结构的网页分块方法有效
申请号: | 201811299864.2 | 申请日: | 2018-11-02 |
公开(公告)号: | CN109492177B | 公开(公告)日: | 2019-12-17 |
发明(设计)人: | 肖碧松;赵芳芳 | 申请(专利权)人: | 中国搜索信息科技股份有限公司 |
主分类号: | G06F16/957 | 分类号: | G06F16/957;G06F16/951 |
代理公司: | 11337 北京市盛峰律师事务所 | 代理人: | 于国富 |
地址: | 100000 北京市大兴*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 网页分块 网页语义 物理块 预处理 内容抽取 输出结构 网页编辑 网页识别 网页页面 重新排版 精准度 语法树 重要度 分块 权重 整合 过滤 输出 监测 广告 | ||
本发明提供一种基于网页语义结构的网页分块方法,涉及网页编辑领域;所述网页分块方法包括以下步骤:S1,将获取到的网页html源码进行预处理,建立DOM语法树;S2,对DOM树进行物理块识别和整合;S3,在物理块类型基础上进行网页识别及监测;S4,输出分块后的网页。本发明提供的网页分块方法能更准确识别网页页面类型以及网页块的重要度,方便过滤一些广告块和权重较低的块;方便对原网页进行重新排版,并输出结构化数据;根据不同类型网页切分网页块,提升了内容抽取的精准度。
技术领域
本发明涉及网页编辑领域,尤其涉及一种基于网页语义结构的网页分块方法。
背景技术
为了满足方便手机用户浏览互联网网页,将www网页内容转化为手机终端方便浏览的页面,我们提出了一种基于网页语义结构的网页分块方法,先把网页分成多个块,再跟据分块的把最优的块展现给手机终端用户。目前,该应用领域主要的解决方案为基于视觉的Web页面分块(Vision-based Page Segmentation,VIPS)。
VIPS利用了诸如字体、颜色、大小等版面特征.它根据一定的语义关联规则,将整个网页表示成一棵HTML DOM树,然后通过横竖线条将节点所对应的分块在网页中分隔开来,构成网页的标准分块,其主要技术特征包括:
1)DOM树进行页面语义分块,计算和保存DOM树中的所有节点的视觉信息。
2)从视觉特征对页面结构进行挖掘,如页面的视觉提示如背景颜色、字体颜色和大小、边框、逻辑块和逻辑块之间的间距等。
3)提取出所有的合适的页面块。
4)检测页面块之间的所有的分割条,包括水平和垂直方向,基于这些分割条切割网页块。
但是上述现有技术由于视觉特征的复杂性,如何保证视觉特征信息是一大难点;其次,VIPS算法需要计算和保存DOM树中的所有节点的视觉信息,这就导致该算法在时间和内存上消耗比较大,使得在处理含有大量节点的网页时性能不高。
发明内容
本发明的目的在于提供一种基于网页语义结构的网页分块方法,从而解决现有技术中存在的前述问题。
为了实现上述目的,本发明采用的技术方案如下:
一种基于网页语义结构的网页分块方法,包括以下步骤:
S1,将获取到的网页html源码进行预处理,建立DOM语法树;
S2,对DOM树进行物理块识别和整合;
S3,在物理块类型基础上进行网页识别及监测;
S4,输出分块后的网页。
优选地,步骤S1中所述预处理包括空白字符压缩、网页标签统一转换为小写、将非标签的<符号转换为实体、处理需要过滤处理的标签内容和网页字符集识别与转换。
优选地,步骤S2包括:
S21,计算所述DOM语法树中每个节点的原子标签数量,识别物理块类型;
S22,对识别出来的物理块中不符合标准的块进行整合。
优选地,所述物理块类型包括原子块和原子集。
优选地,S22中所述不符合标准的块指块文字内容少、空html标签、a标签中href地址链接到其它网站以及广告链接的物理块。
优选地,步骤S3包括:
S31,在物理块类型的基础上再进行粗粒度网页页面类型识别;
S32,根据识别出来的物理块类型和粗粒度网页类型再进行更精细的网页逻辑块类型识别;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国搜索信息科技股份有限公司,未经中国搜索信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811299864.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种页面信息更新方法及装置
- 下一篇:一种切换视图的方法及装置