[发明专利]一种大数据建模平台及方法在审
申请号: | 201710211258.X | 申请日: | 2017-03-31 |
公开(公告)号: | CN107103050A | 公开(公告)日: | 2017-08-29 |
发明(设计)人: | 林伟豪;李学辉;李敬涛 | 申请(专利权)人: | 海通安恒(大连)大数据科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广东朗乾律师事务所44291 | 代理人: | 闫有幸 |
地址: | 116000 辽宁省大连市高新技术*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 建模 平台 方法 | ||
〖技术领域〗
本发明属于电子信息、大数据等技术领域,具体涉及大数据的采集、储存、分析、展现的一种大数据建模平台及方法。
〖背景技术〗
随着互联网的快速发展,每天产生的数据量非常庞大。在大数据技术问世之前,传统的数据处理遇到了很多的瓶颈。首先,对于传统的数据库当数据量非常大的情况下就会导致存储到达上限,解决办法是换容量更大的硬盘,但是这么做的成本非常高。其次就是计算机无法快速的处理大数据量,在数据处理速度上也会遇到瓶颈。
目前,利用大数据技术可以解决传统的信息技术架构存在的扩展性差、容错性差、性能低、安装部署及维护困难等诸多瓶颈。利用Hadoop的HDFS分布式文件系统对数据进行存储,扩展性好、容错性高。利用Hadoop的MapReduce对大规模数据集(大于1TB)进行并行计算,提高计算速度,性能高。使用Sqoop组件实现传统数据库与Hadoop进行数据的传递。但是现有的大数据技术对于非技术人员使用大数据技术是不太容易的。
〖发明内容〗
本发明旨在提供一种大数据建模平台及方法,包含结构化数据建模、数据展现等多方面功能,支持自助式商业智能分析、可拖拽式数据展现及建模等,可以在极短的时间内为企业决策层制作出提供决策依据的管理驾驶舱以及即席查询分析决策平台。本发明的目的由以下技术方案实现:
一种大数据建模平台,包括:
数据资产模块,用于数据源的上传,采用手动上传或自动更新的方式将用户数据更新到云平台,用户通过拖拽手工建模的方式,处理自己上传的数据;
数据清洗模块,用于对数据源进行数据的ETL处理,发现并纠正数据文件中可识别的错误,包括检查数据一致性、处理无效值和缺失值;
数据校验模块,用于对数据进行检测与基本的统计工作;
算法模块,利用机器学习中一些经典的分类或聚类算法对大量数据进行建模,然后利用模型进行预测;
前端展现模块,用于对已经处理过的数据或者未曾处理的数据进行图形化展现。
作为具体的技术方案,所述数据资产模块包括三种上传数据方式,本地文件上传、底层数据上传、数据库上传,其中数据库上传支持MySql、Oracle、Sqlserver三种数据库。
作为具体的技术方案,所述数据清洗模块包括Sql处理子模块、抽样子模块、分类汇总子模块、合并数据子模块、删除重复子模块、数据分区子模块、排序子模块、数据离散化子模块、数据标准化子模块、过滤变量子模块、转置子模块、字段重排子模块、缺失值处理子模块、离群值处理子模块、查找转换子模块、插入变量子模块、加权子模块、样本均衡子模块、分词解析子模块;Sql处理子模块用于直接编辑Sql语句进行执行,抽样子模块用于利用不同的取样方式对数据进行取样处理,分类汇总子模块用于将表内字段变量内容按照均值、计数、求和方式计算,生成相应标签变量列,其中汇总变量与计算变量是可配置的;合并数据子模块用于将两张表的数据按照行记录追加或者列变量追加,行记录追加时请保持列变量名称一致,否则将新增变量列;删除重复子模块用于将选定变量里的重复内容删除;数据分区子模块用于指定训练区和测试区中样本数据的数量或比例;排序子模块将选定的变量内容按照升序或者降序排列;数据离散化子模块用于将选定连续型的变量列,按照等宽分箱或者等频分箱法,进行离散化并加以分类;数据标准化子模块将选定仅支持数字类型的变量列进行0-1标准化,结果落到[0,1]区间;进行Z标准化,数据符合标准正态分布,均值为0,标准差为1;过滤变量子模块用于将选定变量列进行删除;转置子模块用于将数据中所有的行和列进行转置即行列转换;字段重排子模块用于将数据中的列变量位置重新排列;缺失值处理子模块用于将已选变量为空的行记录删除;离群值处理子模块用于按照异常值识别规则将异常值按设定比例进行删除,识别规则包括标准差和分位数,即距离均值一定倍数的标准差或分位数以外的数据识别为异常数据;查找转换子模块用于将选定变量的内容按照设定条件查找,并替换为目标值;插入变量子模块用于将选定变量进行四则运算,生成新变量列,在算法框中,手动输入变量列的名称,编辑运算式。加权子模块用于将选定变量进行加权运算,在权重因子中,输入权重数值。样本均衡子模块用于在选定的数值型变量列中,按照设定条件查找目标数据,并输入权重因子,将目标数据加权处理;分词解析子模块用于将选定的分词字段的文本内容解析后,按照解析后词条生成行记录。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于海通安恒(大连)大数据科技有限公司,未经海通安恒(大连)大数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710211258.X/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置