[发明专利]一种融合搜索与计算的大数据分析系统及其分析方法在审

专利信息
申请号: 201811048809.6 申请日: 2018-09-10
公开(公告)号: CN109213909A 公开(公告)日: 2019-01-15
发明(设计)人: 童欢欢 申请(专利权)人: 南京弹跳力信息技术有限公司
主分类号: G06F16/951 分类号: G06F16/951;G06F16/9032;G06F16/9038
代理公司: 南京乐羽知行专利代理事务所(普通合伙) 32326 代理人: 缪友建
地址: 210000 江苏省南*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 大数据 表达式语言 搜索 分析系统 数据采集层 编程方式 分析平台 分析效率 分析引擎 业务分析 预处理层 扩展性 复杂度 可视化 显示层 融合 检索 替代 分析
【说明书】:

发明涉及一种融合搜索与计算的大数据分析系统,包含数据采集层、预处理层、分析引擎层和显示层。本发明通过检索与表达式语言进行可视化搜索得到大数据分析结果,大大降低了大数据分析平台使用的专业性要求,降低了企业需要同时聘用IT技术人员与业务分析人员的成本,同时表达式语言命令独立、可替代,相比之前使用传统大数据平台的编程方式,扩展性强,大大降低了复杂度,同时提高了大数据分析效率。

技术领域

本发明涉及一种大数据分析方法,具体的说是一种融合搜索与计算的大数据分析系统及其分析方法,属于大数据分析处理技术领域。

背景技术

随着互联网的高速发展,企业所收集的数据量也呈指数级增长,包括交易数据、位置数据、用户交互数据、物流数据、供应链数据、企业经营数据、硬件监控数据、应用日志数据等,这些数据在短时间内无法通过常规软件进行获取以及处理,是需要全新的处理模式才能从大量数据中发现更有决策力的海量、高增长率和多样化的信息资产。随着现代测量技术和智能设备的发展,数据的形式由传统单一的结构化数据演变为由结构化数据、半结构化数据和非结构化数据组成的复杂的数据形式。互联网的快速发展给了人们以分享这些数据的平台,由此产生的海量数据被人们发现和利用,就产生了新型的大数据概念。IBM给出了大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。

相比传统的关系数据库,大数据具有数据量巨大、结构复杂、类型众多等特点,这对大数据的存储、处理与分析提出了新的挑战。传统的数据分析处理技术(例如并行数据库、数据仓库)存在的问题有:①传统的数据仓库技术一般只能处理TB级别的数据量,然而大数据往往PB级别甚至EB级别,并行数据库大多支持有限扩展,一般可扩至数百节点的规模,尚未有数千节点规模的应用案例,传统数据分析处理技术无法处理大数据的高扩展性和海量需求;②大数据涵盖了各种类型的数据,包括结构化、半结构化和非结构化数据,不同类型数据的分析不尽相同,传统数据分析处理往往只针对某一种类型数据和比较单一,大数据分析的方法也是多样化,就有数据挖掘、模式识别、数据融合与集成、时间序列分析等,数据类型的增加导致现有数据空间维度增加,极大地增加了大数据分析处理的复杂度;③传统数据库处理能力的提高依赖于CPU/内存/存储/网络的更新升级,而大数据的处理模式是一种基于“scale-out”的模式,它的性能提高依赖于连续的往分布式系统上增加低价的计算和存储节点;④传统的数据处理方法是以处理器为中心,而大数据环境下,需要采取以数据为中心的模式,减少数据移动带来的开销,传统的数据处理方法,已经不能适应大数据的需求。

当前存在的Hadoop、Storm、Spark等大数据分析框架具有广泛的实用性,成为主流的大数据处理技术和分析平台,为大数据分析带来了很多便捷之处。然而它们也都或多或少地存在问题,这些分析平台的使用者往往是IT专业人员,而IT人员又不懂数据的业务价值,不能很好地解决计算框架与挖掘的数据价值之间的鸿沟。Hadoop基于HDFS(分布式文件系统),需要切分输入数据、产生中间数据文件、排序、数据压缩、多份复制等,效率较低。Storm基于ZeroMQ这个高性能的消息通讯库,不持久化数据。这些现有的大数据平台只能完成任务的分发与计算后的结果合并,至于挖掘所得到的数据价值具有不确定性。

发明内容

本发明所要解决的技术问题是,克服现有技术的缺点,提供一种融合搜索与计算的大数据分析系统及其分析方法,克服了使用传统大数据平台需要专业程序员进行编程实现的问题,大大提高了大数据分析平台的实用性。

针对存在的技术问题,本发明提出一种融合搜索与计算的大数据分析系统,包含数据采集层、预处理层、分析引擎层和显示层;

所述数据采集层,用于获取待分析数据;其中待分析数据的来源包含各类文件、网络数据流、各类服务器以及各类业务系统;

所述预处理层包含全文检索模块、结构化数据处理模块、分布式数据接口模块,用于对获取的待分析数据进行预处理;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京弹跳力信息技术有限公司,未经南京弹跳力信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811048809.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top