[发明专利]一种网页页面正文内容抽取方法及装置有效
申请号: | 201611077718.6 | 申请日: | 2016-11-29 |
公开(公告)号: | CN106776886B | 公开(公告)日: | 2019-09-24 |
发明(设计)人: | 张勇;钟新斌;曹震 | 申请(专利权)人: | 中国农业银行股份有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100005 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 页面 正文 内容 抽取 方法 装置 | ||
本发明提供一种网页页面正文内容抽取方法及装置,通过将原始网页内容进行清洗和行块划分,再计算相邻行块之间的引力因子和关联因子,得到正文因子,最后将正文因子大于阈值的相邻行块的内容进行拼接,生成网页正文;整个过程采用通用的方式进行网页正文内容的抽取工作,无需考虑页面的异构特征,使装置的可靠性和通用性大大增强,便于大规模推广实施;并且无需对页面进行学习认知、制定特定的解析规则和模板,可以大大降低人工成本;另外,无需复杂的参数设定和适配过程,避免了过多的指导参数,人工干预小,自动化程度高。
技术领域
本发明涉及网页抽取技术领域,特别涉及一种网页页面正文内容抽取方法及装置。
背景技术
在大数据时代,数据的价值日益受到企业重视,现代企业不再单纯地依靠企业内部的结构化数据来进行价值提取和发现,互联网作为理想的数据海洋,包含着大量的价值数据,这些数据对行情研判、网络征信、品牌价值推广等多个领域具有重要意义。而互联网上发布的信息通常以网页形式存在,而这些互联网网页页面异构性大,且通常被包含大量HMTL标签、JS脚本或广告推广等的噪声信息所包围,给数据整合和分析工作带来了巨大的困扰,因此迫切需要一种通用、智能和高效的网页抽取方案。
网页抽取的目的是将网页页面中的正文信息抽取出来并标示为结构化、自描述的数据结构。当前在这一领域主要的技术方案包括:一是基于网页标记语言的去除,利用网页形式的页面标签包括“<”和“>”的特点,通过简单的程序遍历和赋值,将所要抽取的信息抽取出来。二是在学习特定网页结构的基础上采用正则表达式,精准地抽取正文部分。三是采用DOM树的方式,将HTML文件转换成XML文档,同样需要在学习相关网页结构的基础上确定内容部分节点,最终抽取正文内容。
然而上述技术方案,本质上都是一种“监督”学习机制,需要人为地认知网页页面结构,进而判断此类页面那些是正文内容,无法做到通用抽取,解析抽取的自动化程度受限,不利于大规模推广;并且,当前的技术方案需要对网页结构有精准的了解,需要针对不同的页面类型定制抽取规则,装置人工成本极高;另外,在互联网上,网页页面的更新周期往往非常短,当页面结构发生变化时,需要修改装置的解析模板进行适配,大大降低了装置的稳定性和鲁棒性。
发明内容
本发明提供一种网页页面正文内容抽取方法及装置,以提供一种自动且通用的抽取方案。
为实现上述目的,本申请提供的技术方案如下:
一种网页页面正文内容抽取方法,包括:
读取原始网页内容;
以行为粒度,统计各行出现的超级链接数目,并记录各行超级链接字符长度;
根据所述行超级链接字符长度,将网页源码中的HTML标签、JS代码部分进行清洗去除,得到纯文本文件;
将所述纯文本文件按照预设行数进行行块划分;
根据所述纯文本文件的各个行块,计算得到相邻行块之间的引力因子;
根据所述纯文本文件的各个行块进行处理,得到相邻行块之间的关联因子;
根据所述引力因子和所述关联因子,计算得到全部相邻行块的正文因子;
将正文因子大于阈值的相邻行块,标记为正文行块;
按照行块顺序将标记为所述正文行块的相邻模块内容进行拼接,生成网页正文。
优选的,所述将所述纯文本文件按照预设行数进行行块划分,包括:
若所述纯文本文件的总行数N能够被预设行数L整除,则将所述纯文本文件划分为N/L个行块,第m个行块为第(m-1)×L+1行到第m×L行构成,1≤m≤N/L;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国农业银行股份有限公司,未经中国农业银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611077718.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据导出方法及装置
- 下一篇:一种物品管理终端、反馈终端管理方法及系统
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法