[发明专利]面向多租户的SaaS舆情监控系统及方法在审
申请号: | 201610054599.6 | 申请日: | 2016-01-27 |
公开(公告)号: | CN105718590A | 公开(公告)日: | 2016-06-29 |
发明(设计)人: | 郭文忠;林晓红;陈星;兰兴土;王一洲 | 申请(专利权)人: | 福州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 蔡学俊 |
地址: | 350108 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 租户 saas 舆情 监控 系统 方法 | ||
技术领域
本发明涉及舆论监控领域,特别是一种面向多租户的SaaS舆情监控系统及方法。
背景技术
2015年,中国的网民渗透率将达50%,随着网民不断增多,言论数量也表现出爆炸性增长的趋势。为了及时发现言论中的不良信息,掌控网络言论的发展态势,舆情监控已经成为政府及大型企业的实际需求。但海量的媒体数据和异构的信息内容为舆情监控带来了极大的挑战:
1.传统的舆情系统的设计多采用单机模型,主要面向单个领域进行监控。随着答数据的涌现和数据结构的多变,现有的舆情监控系统难以同时满足海量数据的实时获取和实现多领域的监控,传统的单机系统面对庞大的多源数据表现出可扩展性等问题。
2.当前的舆情监控系统都是基于某类特定算法实现的,针对一个特定的用户需求可能需要多种算法进行分析。在面向不同用户的需求,或者针对新的任务和功能,现有的系统难以进行处理和扩展。
因此,我们提出面向多租户的SaaS舆情监控系统,针对海量、异构、多源数据进行爬取,在并行计算框架基础上对数据分析,并通过云计算平台以低成本提供海量舆情数据的监控服务。
发明内容
有鉴于此,本发明的目的是提出一种面向多租户的SaaS舆情监控系统及方法,在多数据源、多租户等方面体现了良好的可扩展性。
本发明的系统采用以下方案实现:一种面向多租户的SaaS舆情监控系统,包括数据采集与存储模块、基于并行处理框架的数据分析模块;所述数据采集与存储模块是在Nutch开源框架的基础上,对指定的包括新闻、博客、论坛在内的网站进行实时监控,发现并下载最新网页的全文信息,自动提取网页中的链接,访问其他网页进行抓取并存储至数据库中,采集的舆情数据采用HBase分布式存储技术实现海量数据的存储;所述数据分析模块在并行计算框架基础上,采用基于Single-Pass的改进算法发现热点话题,将挖掘出的热点话题与用户预设的业务需求描述进行逐条匹配,用以实现用户在海量数据上的筛选和过滤。
进一步地,本发明的数据采集与存储模块是基于Nutch开源框架实现的。Nutch是一个由Java实现的开源web搜索引擎,主要用于收集网页数据,对其进行分析、索引,以提供相应的接口来对其网页数据进行查询的一套工具。Nutch1.X版本将爬取的网页存储在HDFS文件系统中,而2.X版本对底层的数据存储进行了抽象,支持使用多种数据库,例如HBase,MySql来存储数据。考虑到使用上的需求,本方法选取Nutch2.2.1版本,方便读取存储的网页数据。
较佳的,舆情监控系统在信息获取上要求具有高度的针对性和时效性。为满足上述两点,本发明基于Nutch搭建采集模块,采用分布式部署和并行爬取的策略,由一台服务控制器和多个爬虫端组成,服务控制器负责爬虫端的监测与控制,每个爬虫端可单独配置爬取的站点、深度等参数,进行全天候的数据获取。对于爬取的数据,按照一定的格式存储于分布式平台HBase中。HBase是一个分布式的、面向列的开源数据库,依托于Hadoop的HDFS作为最基本存储基础单元。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。
进一步地,Nutch是为搜索引擎设计的爬虫,主要针对互联网上的信息进行漫无边际的爬取,在精准数据抓取方面较为薄弱;另一方面,Nutch数据更新周期的长短,决定了采集的数据是否具有时效性,但周期设置过短,Nutch则会浪费大量时间在已爬取网页的更新工作上。因此,对Nutch进行了以下改进:
1)限制数据的采集范围。Nutch提供了一个迭代次数的设置参数,爬虫程序一旦达到迭代次数即停止,但最后一次迭代解析出的链接将会作为下一次爬虫的起始地址,因此Nutch会对互联网上的信息进行漫无边际的爬取。但互联网上太久远的网页不是我们的采集目标,为去除这部分网页,我们设置一定的爬取深度。爬虫程序从入口URL开始抓取网页,一直采集到预设的深度即停止。最后一层深度的网页只获取内容,不解析其链接,实现数据采集范围的限制功能。
2)废除数据更新周期。若一个网页的所在位置与入口地址的距离已经超出上述的爬取深度,我们认为该网页已经不在我们的采集范围内,即该网页对于本舆情监控系统来说“太久远”了,没有必要再进行更新,因此本方法废除了数据更新周期这个配置参数。针对仍在采集范围内的网页,每一次爬虫程序启动,都要获取其HTTPheader中的Last-Modified属性,判断是否需要更新,若需要更新则将该网页的URL加入预取列表,等待重新抓取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610054599.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种业务动态集成模型及其应用方法
- 下一篇:数据仓库模型的构建方法和构建装置