[发明专利]一种通用的新闻评论采集方法及装置有效
申请号: | 201410114600.0 | 申请日: | 2014-03-25 |
公开(公告)号: | CN103886078B | 公开(公告)日: | 2017-05-10 |
发明(设计)人: | 李至立;丁国栋;公强;刘玮 | 申请(专利权)人: | 烟台中科网络技术研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京轻创知识产权代理有限公司11212 | 代理人: | 杨立 |
地址: | 264003 山东省烟台*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 通用 新闻 评论 采集 方法 装置 | ||
技术领域
本发明涉及一种新闻评论采集方法,特别涉及一种通用的新闻评论采集方法及装置。
背景技术
网页信息采集一直是互联网技术中的一项重要研究课题。近年来,随着AJAX技术的普及,国内主流网站已进入WEB2.0的成熟时期,传统的网络爬虫(WEB Crawler)已不能完成这种采用异步交互模式获取数据的页面的采集工作。
方案一:目前国内外已有很多学者进行了研究,主流的解决方案是采用内置浏览器模块来模拟用户动作操作网页元素进行网页数据的获取的。
方案二:《一种网络评论的采集方法及系统》申请公开的专利,所述方法包括:获取一网页入口链接地址;判断所述网页入口链接地址对应的网页上是否有N个网络评论,其中,所述N为正整数;在有所述N个网络评论时,判断所述N个网络评论中是否有M个网络评论满足采集的条件,其中,所述M为小于或等于N的正整数;在有所述M个网络评论满足采集的条件时,采集所述M个网络评论。
方案一,采用模拟浏览器行为的方式,必然会导致大量的时间浪费在AJAX代码解析上。首先,虽然大部分网站都是用的AJAX技术,但是其框架并没有统一的协议,这为通用的代码解析器的研究带来很大的困难。其次,网页发起的异步请求并不一定是获取用户需要的数据,相反的,大部分请求都是返回表现层的代码或数据,这些数据交互和信息会占用大量的解析时间。
方案二,《一种网络评论的采集方法及系统》申请公开的专利,仅有简单的一种入口链接地址的获取方式,并且,对于页面内容的获取也是比较简单,对于目前复杂的WEB2.0时代来说,没有实践性。一方面无法实现通用可配置的入口连接地址的获取,另一方面,针对目前HTML和JSON为主的网页内容,没有针对性的采集方案,对于新评论的判断方案的效率也低于本发明。
发明内容
本发明所要解决的技术问题是提供一种能够大幅提高新闻评论采集效率、实现新闻评论采集通用性,且具有准确性及稳定性的通用的新闻评论采集方法及装置。
本发明解决上述技术问题的技术方案如下:一种通用的新闻评论采集方法,包括以下步骤:
步骤1:获取用户输入的新闻链接地址及用户配置的采集配置文件,所述采集配置文件包括用于配置新闻评论入口链接的模板地址的新闻评论链接采集配置文件,和用于新闻评论内容采集的内容采集配置文件;
步骤2:读取采集配置文件中的模板地址,所述模板地址中包含若干拼接参数;
步骤3:根据获取的新闻链接地址,分析新闻链接地址对应的域名,从新闻评论链接采集配置文件中获取所述域名的新闻评论入口链接的模板地址,并获取新闻评论链接采集配置文件中用于抽取模板地址中新的拼接参数的配置信息;
步骤4:逐条根据获取的配置信息,在新闻页面或新闻链接地址中进行抽取,获得新的拼接参数,将获得的新拼接参数替换掉模板地址中原有的拼接参数,得到新闻评论入口链接地址;
步骤5:根据新闻评论入口链接地址、内容采集配置文件及新闻评论页面的页面类型解析新闻评论页面,结合抽取配置文件及开源工具逐条获取新闻评论页面中的评论内容,直到所有新闻的评论内容全部采集完毕。
本发明的有益效果是:本发明完全绕过AJAX技术带来的内容采集屏障,回归最简单的页面内容采集。因为上面的方法针对的实际上是新闻的采集,而新闻评论的采集有其特殊性,因此本发明目的是:
首先,采集中不再使用AJAX解析相关技术,最重要的目标是最大幅度提高采集效率,并且实现评论采集的通用性。
其次,实现采集数据的准确性,无论是评论的内容或是作者、时间等信息都能准确无误地捕获;采集功能的稳定性,在高效率采集的基础上,保证采集器稳定的工作。
最后,通过配置文件预先人工干预的方式实现国内重要新闻网站采集的全覆盖。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述配置信息中包含评论定位配置信息和字段抽取配置信息。
进一步,所述步骤5中当新闻评论页面为HTML格式时,新闻评论过程进一步包括以下步骤:
步骤3.11:使用开源的HTMLParser解析工具类,将新闻评论页面转化为Parser对象;
步骤3.12:根据配置信息中包含的评论定位配置信息,建立NodeFiler对象,将由新闻评论页面转化成的Parser对象进行过滤,得到仅包含所有评论内容的由一组Node对象构成的NodeList对象;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于烟台中科网络技术研究所,未经烟台中科网络技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410114600.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于轧钢机机架修复的钴基复合粉末及其修复方法
- 下一篇:铁水包随流孕育装置