[发明专利]基于经济领域数据的分布式提取及可视化分析方法和系统在审
申请号: | 201711113558.0 | 申请日: | 2017-11-13 |
公开(公告)号: | CN107766572A | 公开(公告)日: | 2018-03-06 |
发明(设计)人: | 刘银;林杨阳;刘建华;丁文豪 | 申请(专利权)人: | 北京国信宏数科技有限责任公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F9/48;G06F9/50 |
代理公司: | 北京恒都律师事务所11395 | 代理人: | 王清亮 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 经济 领域 数据 分布式 提取 可视化 分析 方法 系统 | ||
技术领域
本申请涉及数据处理技术领域,特别地,涉及基于经济领域数据的分布式提取及可视化分析方法和系统。
背景技术
在当今这个数据量极速膨胀的时代,大数据成为了炙手可热的名词。大数据时代不缺乏数量,重要的是我们需要通过数量来发现整体的规律,从而对大数据进行分析。
大数据利用将成为提高核心竞争力的关键因素。各行各业的决策正在从“业务驱动” 转变“数据驱动”。对大数据的分析可以使零售商实时掌握市场动态并迅速做出应对;可以为商家制定更加精准有效的营销策略提供决策支持;可以帮助企业为消费者提供更加及时和个性化的服务;在医疗领域,可提高诊断准确性和药物有效性;在公共事业领域,大数据也开始发挥促进经济发展、维护社会稳定等方面的重要作用。将数据应用到生活生产中,可以有效地帮助人们或企业对信息作出比较准确的判断,以便采取适当行动。数据分析是组织有目的地收集数据、分析数据,并使之成为信息的过程。也就是指个人或者企业为了解决生活生产中的决策或者营销等问题,运用分析方法对数据进行处理的过程。
以宏观经济领域数据为例。宏观经济领域数据的分析涉及对微信公众号、学术智库网站、财经资讯网站、产业门户网站等在内的互联网内容进行分析。为政府部门在线服务定位、服务策略以及对业务工作的互联网影响评价提供数据分析支撑。随着技术的快速发展,人们使用大数据可视化分析手段进行数据分析,将数据以更加直观的方式展现出来,从不同的维度观察数据,从而对数据进行更深入的观察和分析。
大数据可视化分析是指在大数据自动分析挖掘方法的同时,利用支持信息可视化的用户界面以及分析过程的人机交互方式和技术,有效融合计算机的计算能力和人的认知能力,以获得对于大规模复杂数据集的洞察力。
在当前设计构建和实现基于宏观经济领域数据的可视化分析平台时,会遇到了几个技术难题。首先是宏观经济领域数据的提取要求问题,要求是从全文检索系统中根据设置的查询条件(必选条件:关键词组+时间范围)提取出所命中的数据。其次是技术门槛问题(当用户不懂sql查询语句,又要做大数据分析时),最后是用户交互、展示效果和方式问题(自定义展现效果,灵活性和多样化的展现方式)。
目前,大数据异构环境数据同步工具DataX 与Sqoop,都是解决异构环境的数据交换问题。DataX是一个在异构的数据库/文件系统之间高速交换数据的工具,实现了在任意的数据处理系统(RDBMS/Hdfs/Local filesystem)之间的数据交换,由淘宝数据平台部门完成。Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
但利用上述工具存在以下问题:首先是宏观经济领域数据的提取要求问题,要求是从全文检索系统中根据设置的查询条件(关键词组+时间范围)提取出所命中的数据,宏观经济领域数据与一般舆情类数据最大的不同是宏观经济领域主要研究宏观经济的走势和影响宏观经济的各种因素,因此所提取的数据源时间跨度比较长,涉及的行业领域比较多,数据量比较大,使用开源的DataX和Sqoop工具等无法满足基于宏观经济领域数据的提取要求,所以需要设计一种分布式提取方法来解决这个难题。
分布式系统是指多台机器通过网络连接在一起,作为一个整体为上层提供服务。具体地说,将需要海量计算能力才能处理的问题拆分成许多小块,然后将小块分配给同一套系统中不同的计算节点进行处理,最后如有必要将分开计算的结果合并得到最终结果,那么这种系统称为分布式系统。其中节点是指一个可以独立按照分布式协议完成一组逻辑的程序个体,工程中往往指进程。节点之间完全独立互相隔离,通信唯一方式是通过不可靠的网络。
hive就是基于分布式系统Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其特点是可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。而Spark SQL,作为Apache Spark大数据框架的一部分,主要用于结构化数据处理和对Spark数据执行类SQL的查询。通过Spark SQL,可以针对不同格式的数据执行ETL操作(如JSON,Parquet,数据库)然后完成特定的查询操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国信宏数科技有限责任公司,未经北京国信宏数科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711113558.0/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置