[发明专利]一种网页信息提取系统及提取方法有效
申请号: | 201410138234.2 | 申请日: | 2014-04-08 |
公开(公告)号: | CN103870606B | 公开(公告)日: | 2017-05-10 |
发明(设计)人: | 张啸晨;郭少鹏;吕强;贺文磊 | 申请(专利权)人: | 上海语天信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海申新律师事务所31272 | 代理人: | 俞涤炯 |
地址: | 200120 上海市浦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 信息 提取 系统 方法 | ||
技术领域
本发明涉及网络信息提取技术领域,尤其涉及一种网页信息提取系统及提取方法。
背景技术
在如今信息爆炸的时代,网络扮演着非常重要的角色。网络上包括海量的数据,各种类型以及各种结构的数据都混杂在一起,这就给抓取网络上的正文信息带来了不小的麻烦。
现有技术中,往往需要在网页上获取相关的网页内容,以便于进行后续处理,例如对网页内容进行分析从而获知相关网页发布的信息内容。
通常,现有技术中,在网页上获取相关的网页内容时,会遇到以下几个问题:
1)由于从网络上下载的页面中包括很多无用的广告页面以及一些无效页面,会给获取正文信息的过程带来很多干扰;
2)对于网络上存在的各种结构和各种编码的页面,在获取正文信息时会遇到编码兼容性的问题。
发明内容
根据现有技术中存在的缺陷,现提供一种网页信息提取系统及提取方法,具体包括:
一种网页信息提取系统,其中,包括:
网页信息捕捉单元,用于在浏览器侧下载预设的网页,并捕捉所述网页的网址信息和网页编码信息;
网址过滤单元,连接所述网页信息捕捉单元,预设有多个标准网址信息,并用于根据预设的所述标准网址信息对所述网址信息进行匹配,以获得匹配于所述标准网址信息的有效网址信息;
网页信息提取单元,分别连接所述网页信息捕捉单元和所述网址过滤单元,用于提取对应所述有效网址信息的所述网页编码信息,并将所述网页编码信息分为多个信息块,查找到字节密度骤升的所述信息块和字节密度骤降的所述信息块;
所述网页信息提取单元将位于字节密度骤升的所述信息块和字节密度骤降的所述信息块之间的所述网页编码信息确定为网页信息,并输出所述网页信息。
优选的,该网页信息提取系统,其中,所述网址过滤单元包括:
网址分割模块,用于接收所述网页信息捕捉单元捕获的网址信息,并将所述网址信息分割为域名信息、URL路径信息以及URL实体信息;
标准网址存储模块,保存有所述标准网址信息,所述标准网址信息包括标准域名信息和标准URL路径信息;
网址匹配模块,分别连接所述网址分割模块和所述标准网址存储模块,用于将所述域名信息与所述标准域名信息进行匹配,以及将所述URL路径信息与所述标准URL路径信息匹配,并将匹配成功的所述网址信息标记为有效网址信息。
优选的,该网页信息提取系统,其中,所述网页信息提取单元中包括:
编码转换模块,用于根据所述网页编码信息的编码类型选择相应的解码方式,以将所述网页编码信息的编码类型转换成对应的UTF-8编码UTF-8编码类型;
编码存储模块,连接所述编码转换模块,用于保存经过转换的所述网页编码信息;
第一符号转换模块,连接所述编码存储模块,采用空白信息替代所述编码存储模块中保存的所述网页编码信息中的超文本标签;
信息密度计算模块,连接所述第一符号转换模块,用于将经过替代后的所述网页编码信息分割为多个行数相等的连续的信息块,并计算每个所述信息块的字节密度;
网页信息提取模块,连接所述信息密度计算模块,用于根据所述信息块的字节密度的变化趋势,提取位于字节密度骤升的所述信息块和字节密度骤降的所述信息块之间的所述网页编码信息,并将被提取的所述网页编码信息作为网页信息输出。
优选的,该网页信息提取系统,其中,所述网页信息提取单元中还包括:
第二符号转换模块,连接于所述编码存储模块与所述第一符号转换模块之间,采用换行符替代所述网页编码信息中的分段符,并将经过替代后的所述网页编码信息发送至所述第一符号转换模块中。
优选的,该网页信息提取系统,其中,所述信息密度计算模块还直接连接所述编码存储模块,用于直接提取保存于所述编码存储模块中的所述网页编码信息,并进行划分和信息密度计算;
所述网页信息提取模块中包括:
符号查询模块,根据位于字节密度骤降的所述信息块之前的最接近的区块分隔符,查找位于字节密度骤降的所述信息块之后的对应的区块分隔符;
所述网页信息提取模块将位于两个相应的所述区块分隔符之间的所述网页编码信息作为所述网页信息并输出。
一种网页信息提取方法,其中,包括:
步骤1,预设多个标准网址信息;
步骤2,在浏览器侧下载一个预设的网页,并获取所述网页的网址信息和对应的网页编码信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海语天信息技术有限公司,未经上海语天信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410138234.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电玉粉固化剂的制造方法
- 下一篇:一种高致密度复合陶瓷
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置