[发明专利]一种基于大数据的舆情发现方法在审
申请号: | 201510458540.9 | 申请日: | 2015-07-30 |
公开(公告)号: | CN105068991A | 公开(公告)日: | 2015-11-18 |
发明(设计)人: | 肖会 | 申请(专利权)人: | 成都鼎智汇科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京天奇智新知识产权代理有限公司 11340 | 代理人: | 郭霞 |
地址: | 610000 四川省成都市高*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 舆情 发现 方法 | ||
技术领域
本发明涉及数据处理领域,具体涉及一种基于大数据的舆情发现方法。
背景技术
随着Web2.0技术的发展,互联网发生翻天覆地的变化。互联网由静态网页和信息,转变成为人人参与的“群体智慧”的展示平台。通过博客、微博、BBS、SNS、新闻评论等,网民可以自由发布自己的观点想法和对任何事件进行评论。在一个网络互联的时代,任何的意见、想法都可能影响一大批人,形成网络舆论。现阶段越来越多的事件表明:网络舆论在影响社会舆论发展趋势,甚至已经作为一种主要社会舆论的方式。网民在网络上有意识或者无意识表达出来的民情民意,对社会热点问题的关注表达出的价值取向和观点越来越具有研究和参考价值。
热点话题和热点事件的检测和提取成为近年话题检测与跟踪研究的分支之一,从互联网数据中,主要是新闻,博客,论坛,社交网站和搜索日志等数据中获取热点特征组或者与行为短语,进行抽象提取,从而得到热点话题。由于传统博客、微博和社交网站上存在与日俱增的话题和数据,热点话题可以提供给用户搜索关键词参考,例如,Baidu搜索引擎中的热点话题推荐,将获取的热点话题进行推荐,并能时时更新。这些无疑促使热点新闻成为舆论的焦点,广泛的影响大众的视线,引导大众舆论,一定程度上体现民众的社会政治态度。面对多元化的网络舆情表达诉求,倘若不加引导,负面的网络舆情将会对社会的公共安全造成一定的危害。
综上所述,进行网络舆情分析,实时把控舆情态势,形成正面的网络舆情环境,对于构建社会主义和谐社会具有现实指导意义。但是目前针对互联网的基于文本观点挖掘与分类的方法还是不多,与即时的发现热点、分析处理并评估舆论的要求尚有距离,因此,有必要提供一种基于文本观点挖掘与分类的方法。此方法应用在及时发现并监控网络舆情的热点话题,有利于让民众实时了解社会热点信息,为政府及相关部门制定政策提供辅助支持。加强信息的梳理,保证舆情的及时、准确和全面,可以有效的预防不良信息的传播。
此外,随着移动互联网、物联网等应用的飞速发展,全球数据量出现了爆炸式增长。数据量的飞速增长预示着现在已经进入了大数据时代。现有技术中对大数据的处理采用基于Hadoop的平台。Hadoop是一个开源分布式计算平台,其核心包括HDFS(HadoopDistributedFilesSystem,Hadoop分布式文件系统)。HDFS的众多优点(主要包括高容错性、高伸缩性等)允许用户将Hadoop部署在低廉的硬件上,搭建分布式集群,构成分布式系统。HBase(HadoopDataBase,Hadoop数据库)是建立在分布式文件系统HDFS之上的提供高可靠性、高性能、列存储、可伸缩、实时读写的分布式数据库系统,主要用来存储非结构化和半结构化的松散数据。
发明内容
为解决现有技术中存在的问题,本发明提出一种基于大数据的舆情发现方法。
本发明提出的一种基于大数据的舆情发现方法,包括:
步骤S100,数据采集,基于分布式云计算方式对网络数据进行数据采集,所述数据采集是由网络爬虫来实现的;通过分布式存储设备存储采集的网络数据,所述分布式存储设备基于HDFS实现;
步骤S200,数据预处理,对步骤S100采集的网络数据进行预处理,首先对采集的网络数据进行分词和词性标注处理,然后进行标点符号处理、表情字符处理和停用词处理,最后得到用于表示文本的特征项;
步骤S300,话题抽取,基于预处理后的网络数据,从中抽取出话题。
步骤S400,舆情分析,基于步骤S300抽取的话题进行舆情分析。
其中,步骤S200进一步包括:
高质量词汇提取,步骤S200所得到的每一个特征项都隐含一个质量值,其反应特征项在文本中的贡献度,特征项t的质量Q(t)表示为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都鼎智汇科技有限公司,未经成都鼎智汇科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510458540.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种药品信息的自然语言处理方法及系统
- 下一篇:串行收发控制电路及方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置