[发明专利]面向多租户的SaaS舆情监控系统及方法在审

申请号：	201610054599.6	申请日：	2016-01-27
公开（公告）号：	CN105718590A	公开（公告）日：	2016-06-29
发明（设计）人：	郭文忠;林晓红;陈星;兰兴土;王一洲	申请（专利权）人：	福州大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	福州元创专利商标代理有限公司 35100	代理人：	蔡学俊
地址：	350108 福建省福州市***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	面向租户 saas 舆情监控系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种面向多租户的SaaS舆情监控系统，其特征在于：包括数据采集与存储模块、基于并行处理框架的数据分析模块；所述数据采集与存储模块是在Nutch开源框架的基础上，对指定的包括新闻、博客、论坛在内的网站进行实时监控，发现并下载最新网页的全文信息，自动提取网页中的链接，访问其他网页进行抓取并存储至数据库中，采集的舆情数据采用HBase分布式存储技术实现海量数据的存储；所述数据分析模块在并行计算框架基础上，采用基于Single-Pass的改进算法发现热点话题，将挖掘出的热点话题与用户预设的业务需求描述进行逐条匹配，用以实现用户在海量数据上的筛选和过滤。

2.根据权利要求1所述的一种面向多租户的SaaS舆情监控系统，其特征在于：所述Nutch采用Nutch2.2.1版本，并对所述Nutch作了以下改进：

限制数据的采集范围:设置一定的爬取深度,爬虫程序从入口URL开始抓取网页，一直采集到预设的深度即停止；最后一层深度的网页只获取内容，不解析其链接，用以实现数据采集范围的限制功能；

废除数据更新周期：废除了数据更新周期这个配置参数，针对仍在采集范围内的网页，每一次爬虫程序启动，都要获取其HTTPheader中的Last-Modified属性，判断是否需要更新，若需要更新则将该网页的URL加入预取列表，等待重新抓取；

7*24小时采集：采用全天候的监控方法，为Nutch添加了一个时间调度模块，以达到实时监控的目的。

3.一种基于权利要求1所述的面向多租户的SaaS舆情监控系统的方法，其特征在于：包括以下步骤；

步骤S1：所述数据采集与存储模块采用Nutch开源框架对指定的包括新闻、博客、论坛在内的网站进行实时监控，发现并下载最新网页的全文信息，自动提取网页中的链接，访问其他网页进行抓取并存储至数据库中；

步骤S2:将采集的舆情数据采用HBase分布式存储技术实现海量数据的存储；

步骤S3：所述数据分析模块采用开源分词工具IKAnalyzer对采集的舆情数据进行中文分词处理，提取出文本的特征词并计算特征词的权重，建立文本的向量空间模型，然后通过改进的Single-Pass聚类算法实现热点话题挖掘，并针对用户的不同业务需求向用户推送舆情内容。

4.根据权利要求3所述的一种基于面向多租户的SaaS舆情监控系统的方法，其特征在于：所述步骤S1中Nutch的工作具体包括以下步骤：

步骤S11：初始化抓取数据库CrawlDb，注入种子URL；

步骤S12：根据CrawlDb创建抓取列表，并写入相应的segments，一个segments代表一次抓取；

步骤S13：根据预取列表中的链接进行抓取，获取网页文件；

步骤S14：把获取到的网页文件的页面信息存入所述数据库中，解析获取的页面，提取页面内的链接，并更新所述CrawlDb；

步骤S15：判断Nutch的爬取工作是否达到预先设定的深度，若是，则停止爬取工作，并进入步骤S16；若否，则返回步骤S12；

步骤S16：从CrawlDb获取页面重要性评分，同时更新segments；

步骤S17：为获取的页面建立索引数据库；

步骤S18：去除重复的内容，将索引进行合并生成最终可提供系统查询的索引文件。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于福州大学，未经福州大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201610054599.6/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]面向多租户的SaaS舆情监控系统及方法在审

专利文献下载