[发明专利]面向多租户的SaaS舆情监控系统及方法在审
申请号: | 201610054599.6 | 申请日: | 2016-01-27 |
公开(公告)号: | CN105718590A | 公开(公告)日: | 2016-06-29 |
发明(设计)人: | 郭文忠;林晓红;陈星;兰兴土;王一洲 | 申请(专利权)人: | 福州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 蔡学俊 |
地址: | 350108 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 租户 saas 舆情 监控 系统 方法 | ||
1.一种面向多租户的SaaS舆情监控系统,其特征在于:包括数据采集与存储模块、基于并行处理框架的数据分析模块;所述数据采集与存储模块是在Nutch开源框架的基础上,对指定的包括新闻、博客、论坛在内的网站进行实时监控,发现并下载最新网页的全文信息,自动提取网页中的链接,访问其他网页进行抓取并存储至数据库中,采集的舆情数据采用HBase分布式存储技术实现海量数据的存储;所述数据分析模块在并行计算框架基础上,采用基于Single-Pass的改进算法发现热点话题,将挖掘出的热点话题与用户预设的业务需求描述进行逐条匹配,用以实现用户在海量数据上的筛选和过滤。
2.根据权利要求1所述的一种面向多租户的SaaS舆情监控系统,其特征在于:所述Nutch采用Nutch2.2.1版本,并对所述Nutch作了以下改进:
限制数据的采集范围:设置一定的爬取深度,爬虫程序从入口URL开始抓取网页,一直采集到预设的深度即停止;最后一层深度的网页只获取内容,不解析其链接,用以实现数据采集范围的限制功能;
废除数据更新周期:废除了数据更新周期这个配置参数,针对仍在采集范围内的网页,每一次爬虫程序启动,都要获取其HTTPheader中的Last-Modified属性,判断是否需要更新,若需要更新则将该网页的URL加入预取列表,等待重新抓取;
7*24小时采集:采用全天候的监控方法,为Nutch添加了一个时间调度模块,以达到实时监控的目的。
3.一种基于权利要求1所述的面向多租户的SaaS舆情监控系统的方法,其特征在于:包括以下步骤;
步骤S1:所述数据采集与存储模块采用Nutch开源框架对指定的包括新闻、博客、论坛在内的网站进行实时监控,发现并下载最新网页的全文信息,自动提取网页中的链接,访问其他网页进行抓取并存储至数据库中;
步骤S2:将采集的舆情数据采用HBase分布式存储技术实现海量数据的存储;
步骤S3:所述数据分析模块采用开源分词工具IKAnalyzer对采集的舆情数据进行中文分词处理,提取出文本的特征词并计算特征词的权重,建立文本的向量空间模型,然后通过改进的Single-Pass聚类算法实现热点话题挖掘,并针对用户的不同业务需求向用户推送舆情内容。
4.根据权利要求3所述的一种基于面向多租户的SaaS舆情监控系统的方法,其特征在于:所述步骤S1中Nutch的工作具体包括以下步骤:
步骤S11:初始化抓取数据库CrawlDb,注入种子URL;
步骤S12:根据CrawlDb创建抓取列表,并写入相应的segments,一个segments代表一次抓取;
步骤S13:根据预取列表中的链接进行抓取,获取网页文件;
步骤S14:把获取到的网页文件的页面信息存入所述数据库中,解析获取的页面,提取页面内的链接,并更新所述CrawlDb;
步骤S15:判断Nutch的爬取工作是否达到预先设定的深度,若是,则停止爬取工作,并进入步骤S16;若否,则返回步骤S12;
步骤S16:从CrawlDb获取页面重要性评分,同时更新segments;
步骤S17:为获取的页面建立索引数据库;
步骤S18:去除重复的内容,将索引进行合并生成最终可提供系统查询的索引文件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610054599.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种业务动态集成模型及其应用方法
- 下一篇:数据仓库模型的构建方法和构建装置