[发明专利]一种能够自动采集分析的网络舆情检测系统在审
申请号: | 202210854121.7 | 申请日: | 2022-07-13 |
公开(公告)号: | CN115409240A | 公开(公告)日: | 2022-11-29 |
发明(设计)人: | 王亓彬;王晶晶 | 申请(专利权)人: | 南昌工学院 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q50/00;G06F16/951;G06F16/9536;G06F40/205 |
代理公司: | 北京奥肯律师事务所 11881 | 代理人: | 周桐 |
地址: | 336100 江西省南昌*** | 国省代码: | 江西;36 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 能够 自动 采集 分析 网络 舆情 检测 系统 | ||
1.一种能够自动采集分析的网络舆情检测系统,用于对网络热点舆情进行采集和检测,其特征在于,所述网络舆情检测系统包括:
数据采集层,通过数据采集单元采集各大热门网站的资源信息,从而便于分析处理层进行舆情数据分析;
分析处理层,对采集到的舆情数据进行处理分析,从而为应用服务层提供数据支撑;
应用服务层,通过分析处理层处理后的舆情数据,对当前的网络舆情进行判断,并预测舆情的下一步发展。
2.根据权利要求1所述的一种能够自动采集分析的网络舆情检测系统,其特征在于,所述数据采集层包括数据采集单元、参数设置单元和数据解析单元,其中,各单元的功能如下:
数据采集单元:通过数据采集单元对网络舆情进行数据收集,设置采集端口,数据采集单元根据设置的采集端口进行自动爬取;
参数设置单元:对数据采集单元的抓取参数进行设置,主要内容包括两个方面,爬取目标和存储单元,设置抓取黑名单和抓取白名单,数据采集单元从白名单进行数据抓取;
数据解析单元:在采集端口中,会对所发布的资源信息进行记录,包括浏览次数、转载次数、发布信息等,其中存在很多的重复性内容,通过数据解析单元对各个数据内容进行分解,去除重复性内容,保留具有价值的信息,并对采集信息进行分类处理。
3.根据权利要求1所述的一种能够自动采集分析的网络舆情检测系统,其特征在于,参数采集单元中,在对爬取目标进行设定时,需要对爬取过程、爬取效果等进行设置,并根据实际需要来设计爬取名单,仅对白名单上的内容进行工作,可以减少不必要的环节,从而保证工作质量和效率。
4.根据权利要求1所述的一种能够自动采集分析的网络舆情检测系统,其特征在于,所述存储单元为主存储区和多个分存储区,且多个白名单与分存储区一一对应,所述分存储区内部的数据经过处理后汇总进入主存储区。
5.根据权利要求1所述的一种能够自动采集分析的网络舆情检测系统,其特征在于,所述分析处理层包括舆论判定单元、舆论跟踪单元、舆论评估单元和舆论报告单元,其中,
舆论判定单元,当数据解析单元解析完成后,将解析后的舆情数据存储到主存储区,舆论判定单元从各个分存储区提取数据,存储到需要对相近或相似的舆论主题进行合并,并采用文本处理技术,将每个主题中的句子,单词进行分词;
舆论跟踪单元,随着时间的变化,每一个舆论主题的向量文本都在发生改变,通过舆论跟踪单元对舆论导向进行跟踪,分析文本与主题之间的关系,当主题没发生变化时,将讨论的内容在文本中分类,有助于对主题观点进行分析和统计;
舆论评估单元,对主题的倾向以及向量文本中的观点等作出判断,从句子,单词、段落等方面来分析观点的内容;
舆论报告单元,通过前期的数据收集和处理,可以获得较为准确的分析结果,用户可根据实际需要,制成报告表格,对每一个话题的舆论情况设计警戒值,当超出这个数值后可自动进行警报。
6.根据权利要求1所述的一种能够自动采集分析的网络舆情检测系统,其特征在于,所述应用服务层包括舆情预测单元,所述舆情预测单元的预测方法具有以下步骤:
步骤一:对聚合之后得到的网络舆情数据进行标准化处理;
步骤二:计算出相关系数矩阵S,并求出S所对应的的i个特征根,以及相应特征向量;
步骤三:计算方差贡献率,当累积方差贡献率达到85%以上时,选取n个主成分t;
步骤三:将N个主成分数据输入到Markov模型中,输出预测数据。
7.根据权利要求1所述的一种能够自动采集分析的网络舆情检测系统,其特征在于,
所述数据解析单元的具体解析方法如下:将从各白名单上采集的原始网页转化成格式化文本存入分存储区,然后首先将采集到网页信息进行去重、消除噪声等处理,然后从网页中提取出正文信息,利用中文分词技术将采集到的文本字符串进行切割,转化成单个的词条,这些词条被称为该文本的特征项,最后利用概率模型等数学模型特征项文档进行特征抽取形成文本向量集,为后期舆情分析过程中进行排序、比较、计算操作提供数据支撑。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南昌工学院,未经南昌工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210854121.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种反渗透膜净水器
- 下一篇:一种轻质再生塑料专用的回收造粒设备
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理