[发明专利]基于大数据平台的网络舆情分析系统在审
| 申请号: | 201810961969.3 | 申请日: | 2018-08-22 |
| 公开(公告)号: | CN109284432A | 公开(公告)日: | 2019-01-29 |
| 发明(设计)人: | 佘平;徐逢澍;李程;张慧萍;刘立;李宁波;冯馨锐 | 申请(专利权)人: | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) |
| 主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/958;G06F16/35 |
| 代理公司: | 上海段和段律师事务所 31334 | 代理人: | 李佳俊;郭国中 |
| 地址: | 201800 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 大数据 网络舆情分析 海量数据 数据库 存储 自然语言处理 采集存储 内存计算 情感分析 索引构建 舆情信息 呈现层 分析层 网页 采集 互联网 挖掘 分析 | ||
本发明提供了一种基于大数据平台的网络舆情分析系统,其特征在于,包括:采集存储层:对网页中的数据进行采集、存储至大数据数据库和索引构建;分析层:通过大数据内存计算框架对接大数据数据库中的数据进行舆情信息的分析;呈现层:呈现当前的舆情状态。本发明采用大数据思路来解决互联网中的舆情处理,可以满足海量舆情数据的存储,同时利用大数据在海量数据下的机器挖掘的能力,使得海量数据下舆情在自然语言处理,情感分析,热点事情提取更加精准。
技术领域
本发明涉及数据处理领域,具体地,涉及基于大数据平台的网络舆情分析系统。
背景技术
随着互联网的高速发展,互联网中的信息在爆发式增长,传统的数据处理已经 不合适处理这样的数据。互联网环境下的网络舆情并不是网络世界中直接存在的数 据,而是通过相关技术从海量网络数据中经过提取并分析得来的结果。
采用大数据思路来解决互联网中的舆情处理是一种可行的思路,但是目前没有过相关的技术文献供参考。因此,提供一种基于大数据平台的网络舆情分析系统是 目前相关技术领域的研发方向。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于大数据平台的网络舆情分析系统。
根据本发明提供的一种基于大数据平台的网络舆情分析系统,包括:
采集存储层:对网页中的数据进行采集、存储至大数据数据库和索引构建;
分析层:通过大数据内存计算框架对接大数据数据库中的数据进行舆情信息的分析;
呈现层:呈现当前的舆情状态。
较佳的,所述采集存储层包括:
网络爬虫模块:采用网络爬虫对网页中的数据进行爬取;
数据存储模块:将爬取的数据存入大数据数据库;
索引构建模块:在存入数据的同时启动索引后端服务,按时间顺序进行数据库的舆 情内容访问,并根据内容进行倒排索引构建。
较佳的,所述网络爬虫模块在爬取的同时结合当前互联网搜索引擎的结果进行爬取 修正,不同的网站对象采用不同的网络爬虫模块进行爬取,爬取的结果以文本的方式统一存储到大数据数据库。
较佳的,所述数据存储模块以网页地址和时间戳组成主键,以网页内容为数据值,构建舆情原始内容数据集。
较佳的,所述分析层包括:
文本特征提取模块:对所述采集存储层采集到的数据进行解析梳理,得到文本特征 值;
文本分类模块:采用分类器,根据文本特征对网页内容进行分类;
热点聚类模块:对于当天各个类下的文本根据特征向量分别作K均值聚类,生成当日的热点事件,以各个类的质心作为整个热点的特征向量;
舆情热点分析模块:使用分类器对各个网页文本进行正负面分类,并对每个热点事 件进行统计,以描述热点事件整体情感倾向或敏感倾向;
热点事件态势预测模块:对热点事件再次进行聚类,以生成对各个热点事件基于时 间轴的摘要汇总,对事件的情感倾向或敏感倾向进行线性回归预测。
较佳的,所述文本特征提取模块包括:
文本清洗:对html源网页进行去标签化处理,提取网页中的中英文文本内容,并对gbk、gb2312编码的中文做内码转换,统一成utf8编码;
文本分词:通过词库,对文本进行分词;
文本特征提取:计算文本中各个词语的TF-IDF值,对网页文本构建词频特征向量,并将特征值存储于大数据数据库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东计算技术研究所(中国电子科技集团公司第三十二研究所),未经华东计算技术研究所(中国电子科技集团公司第三十二研究所)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810961969.3/2.html,转载请声明来源钻瓜专利网。





