[发明专利]一种大数据协同分析工具平台在审
申请号: | 201611227962.6 | 申请日: | 2016-12-27 |
公开(公告)号: | CN106649773A | 公开(公告)日: | 2017-05-10 |
发明(设计)人: | 梁学东 | 申请(专利权)人: | 北京大数有容科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京纽乐康知识产权代理事务所(普通合伙)11210 | 代理人: | 王珂 |
地址: | 100191 北京市海淀区塔*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 协同 分析 工具 平台 | ||
1.一种大数据协同分析平台,其特征在于,包括:
多数据源配置模块,用于实现任意数据的配置导入和爬取,建立容数据源配置XML脚本语言,或者通过容数据源配置XML脚本语言,实现各种数据源的编程配置和映射配置;
数据检索模块,用于对导入的数据建立全文分词索引,提供主题检索和条件检索,支持海量数据的高速搜索引擎;
数据加工模块,用于实现团队协同协作的协同数据标引和协同分析功能,通过标引树技术,实现标引内容的统一协同管理和数据定制化标引加工;
数据分析模块,用于定制算法模板,分析算法自由选择,量身定制数据建模和算法实现,通过算法包插件,提供专享专用算法包;
数据可视化模块,用于实现分析结果的可视化展示和自动报表,包括动态可视化插件、执行结果展示、执行结果导出和自动报告生成。
2.根据权利要求1所述的一种大数据协同分析平台,其特征在于,所述多数据源配置模块包括:
网页爬取导入子模块,用于实现爬取配置、爬取规则和爬取导入的一体化处理流程,使用自主研发网络爬虫技术,对指定网站、网页进行规则化数据爬取,爬取数据根据爬虫导入配置器自动导入数据库;
数据源配置器编辑子模块,用于数据源配置器配置规则项的新建和编辑;
数据源配置器管理子模块,用于各个数据源配置器的查询和管理,包括配置器的摘要信息,详细编辑入口和删除功能;
数据导入历史管理子模块,用于针对当前任务下的数据导入历史信息列表查询,包括数据的导入名称、大小、时间、所用配置器和导入状态;
数据导入执行子模块,用于选择配置器和导入数据源执行数据导入。
3.根据权利要求1所述的一种大数据协同分析平台,其特征在于,所述数据加工模块包括:
数据协同标引子模块,用于实现数据标引、加工和分析的多人团队协同同步作业,提供在线、团队、实时、协作分析加工标引功能,各成员标引加工内容实时同步呈现,通过颜色区分不同成员的加工标引内容并相互可见,实现团队标引加工作业的操作实时协同、进度清晰可见、内容同步共享;
数据标引树管理子模块,用于提供协同标引加工时的标引数据字典功能,实现标引内容的统一协同管理和数据定制化标引加工;
标引加工执行子模块,用于数据标引、加工和分析的执行;
标引历史管理子模块,用于对标引树技术储进行管理,或者通过CSV格式文件进行导入导出管理,使标引树字典信息实现线上线下的映射导出和集中管理。
4.根据权利要求1所述的一种大数据协同分析平台,其特征在于,所述数据分析模块包括:
动态算法包插件,用于实现定制化扩展算法包的动态替换扩展和算法热插拔;实现算法包的模板化管理,通过参数模板,规范管理算法输入输出标准,前端通过参数模板解析,识别所需参数类型;
统计分析执行子模块,用于参数采集,通过人机交互采集参数后,将采集到的参数列表经过格式化统一传递给算法包,进行算法执行;
执行结果管理子模块,用于数据分析结果的管理。
5.根据权利要求1所述的一种大数据协同分析平台,其特征在于,所述数据可视化模块包括:
动态可视化插件,用于实现可视化图表的组件化、模板化和插件化,提供可视化图表的动态组件化,通过后台管理可视化模板,并通过可视化模板的动态插拔实现前端可视化图表组件的动态替换和扩展;
执行结果展示,用于展示动态可视化的结果;
执行结果导出,用于导出动态可视化的结果;
自动报告生成,用于根据事先定义的报告模板,结合分析结果数据和图表,自动生成统计分析报告。
6.一种大数据协同分析方法,其特征在于,包括:
S1:建立研究主题:以研究主题为单位、创建研究任务组、管理研究数据和制定研究方向,线下科研团队直接平移至线上,团队成员协同共享研究成果,不同研究任务之间数据保密隔离;
S2:数据搜索引擎:导入数据建立全文分词索引,提供主题检索和条件检索,支持海量数据的高速搜索引擎;
S3:建模统计分析:定制算法模块,分析算法自由选择,量身定制数据建模和算法实现,通过算法包插件,提供专享专用算法包,让建模统计分析随需而用,快速高效;
S4:数据配置导入:海量数据批量并行导入和爬取,针对各种数据源定制专有数据解析配置器,通过配置器插件服务,实现所有格式文本文献的定向字段提取和定制化导入,实现数据源的自定义智能解析、数据项智能提取分离、数据字段智能映射存储;
S5:协同分析标引:实现研究团队内数据加工云协作,团队成员分析加工标引结果实时共享可见,实时在线沟通,支持基于标引树的统一标引数据字典,针对各种标引内容定制专有标引规则配置器,实现批量自动化标引;
S6:结果可视化:提供分析结果的可视化展示和自动报表,可视化图表根据需求量身定制,通过可视化插件,提供专享专用可视化模板,提供交互式可视化和自动报告。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大数有容科技有限公司,未经北京大数有容科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611227962.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种访问数据的方法及设备
- 下一篇:基于人工智能的对象推送方法及装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置