[发明专利]网页正文内容提取方法及装置有效
申请号: | 201010591506.6 | 申请日: | 2010-12-16 |
公开(公告)号: | CN102541874A | 公开(公告)日: | 2012-07-04 |
发明(设计)人: | 周奕;周宇煜;吴淑燕 | 申请(专利权)人: | 中国移动通信集团公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘 |
地址: | 100032 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 正文 内容 提取 方法 装置 | ||
技术领域
本发明涉及互联网信息处理技术领域,尤其涉及一种网页正文内容提取方法及装置。
背景技术
随着互联网技术的迅速发展,网页上的信息越来越丰富,为了更好的使用网页上的信息,人们不断追求能够有效组织和利用网上信息的技术,然而网页并不像传统的文本那样整齐、干净,其中包含着大量的噪音内容,例如为了增强用户交互性而加入的脚本,为了便于用户浏览而加入的导航链接,以及出于商业考虑所加入的广告链接等,上述噪音内容不仅影响了网页信息检索的效率,而且还导致了检索的准确性较低,网页正文内容的准确提取不仅可以过滤网页中导航信息、广告信息、版权信息、相关链接等内容对检索结果的干扰,还可以对网页进行自动分词、命名实体识别、自动摘要、自动分类以及自动聚类等。
如图1所示,为现有技术中网页正文内容提取方法流程图,其具体处理流程如下:
步骤11,针对单篇网页,确定第i行和第(i+1)行内容的字符总数和中文字符数;
步骤12,计算第i行和第(i+1)行内容的文本密度,可以用中文字符数除以字符总数来计算文本密度;
步骤13,将计算得到的文本密度与预设的阈值进行比较;
步骤14,若比较结果为文本密度不小于预设的阈值,则确定第i行和第(i+1)行为正文内容,若比较结果为文本密度小于预设的阈值,则确定第i行和第(i+1)行为非正文内容;
步骤15,若确定出第i行和第(i+1)行为正文内容,则按照上述方法确定第i行、第(i+1)行以及第(i+2)行是否为正文内容;
步骤16,若确定出第i行和第(i+1)行为非正文内容,则按照上述方法确定第(i+2)行和第(i+3)行是否为正文内容。
步骤17,执行上述步骤,直至遍历该网页的所有行。
上述方法中,若连续多行内容的文本密度不小于预设阈值,就认为该连续多行内容为正文内容,但是现在很多网页中,存在很多干扰度较高的非正文内容,例如个人信息、短文章、免责声明等,这些非正文内容的文本密度较大,很可能大于预设的阈值,因此可能被误认为正文内容,从而使得正文内容的提取准确性较低。
发明内容
本发明实施例提供一种网页正文内容提取方法及装置,用以解决现有技术存在的提取网页正文内容的准确性较低的问题。
本发明实施例技术方案如下:
一种网页正文内容提取方法,该方法包括步骤:获得归属于同一站点下相同层级目录的两个网页;针对获得的每个网页,分别执行:将该网页划分成各内容块;确定划分出的每个内容块的标签密度和/或链接密度;并选择出标签密度和/或链接密度满足对应预设条件的内容块;在选择出的各内容块中,提取出文本内容和另一网页中选择出的各内容块的文本内容均不一致的内容块;将提取出的内容块,确定为该网页的正文内容。
一种网页正文内容提取装置,包括:获得单元,用于获得归属于同一站点下相同层级目录的两个网页;划分单元,用于针对获得单元获得的每个网页,将该网页划分成各内容块;第一确定单元,用于针对获得单元获得的每个网页,确定划分单元划分出的每个内容块的标签密度和/或链接密度;选择单元,用于针对获得单元获得的每个网页,选择出标签密度和/或链接密度满足对应预设条件的内容块;提取单元,用于针对获得单元获得的每个网页,在选择单元选择出的各内容块中,提取出文本内容和另一网页中选择出的各内容块的文本内容均不一致的内容块;第二确定单元,用于针对获得单元获得的每个网页,将提取单元提取出的内容块,确定为该网页的正文内容。
本发明实施例技术方案中,由于归属于同一站点下相同层级目录的网页均是由同一个模板生成的,其网页结构相似或相同,因此本发明实施例针对归属于同一站点下相同层级目录的两个网页,首先根据标签密度和/或链接密度选择出备选的正文内容块,然后在选择出的内容块中,去除两个网页中文本内容相同的非正文内容块,从而提取出正文内容块,这就有效地提高了提取网页正文内容的准确性。
附图说明
图1为现有技术中,网页正文内容提取方法流程示意图;
图2为本发明实施例中,网页正文内容提取方法流程示意图;
图3为本发明实施例中,网页正文内容提取方法具体实现流程示意图;
图4为本发明实施例中,网页正文内容提取装置结构示意图。
具体实施方式
下面结合各个附图对本发明实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细地阐述。
如图2所示,为本发明实施例中网页正文内容提取方法流程图,其具体处理流程如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团公司,未经中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010591506.6/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法