[发明专利]一种用于创建或刷新分析型数据仓库的离线数据集合的方法和装置在审
申请号: | 201711135434.2 | 申请日: | 2017-11-16 |
公开(公告)号: | CN110019299A | 公开(公告)日: | 2019-07-16 |
发明(设计)人: | 周祥;吉剑南;杜敬兵;占超群 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/242 | 分类号: | G06F16/242;G06F16/2453;G06F16/2455;G06F16/28 |
代理公司: | 北京清源汇知识产权代理事务所(特殊普通合伙) 11644 | 代理人: | 冯德魁;窦晓慧 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 查询 离线数据 数据仓库 分析型 方法和装置 集合 预设条件 可执行命令 海量数据 模板创建 任务建立 在线查询 创建 申请 并发 文本 | ||
本申请公开了一种用于创建或刷新分析型数据仓库的离线数据集合的方法和装置。其中所述方法包括:为满足预设条件的分析型数据仓库的查询任务建立查询表达式模板;利用所述查询表达式模板创建或刷新离线数据集合;其中,所述满足预设条件至少包括下列条件中的一种:查询任务的可执行命令文本的特征为设定的类型;查询任务的执行结果为设定类型的结果。本申请解决了海量数据在线查询及高并发查询时,耗费大量的资源,影响查询的速度的问题。
技术领域
本申请涉及数据仓库领域,具体涉及用于创建或刷新分析型数据仓库的离线数据集合的方法和装置,以及用于分析型数据仓库的查询方法和装置,以及用于创建在线数据库的离线查询数据的方法。
背景技术
面向大数据场景下的实时分析型数据仓库(Analytic DB,简称ADS),大量应用场景聚焦于在线高并发的多维查询分析。多维查询分析类结构化查询语言(StructuredQuery Language,简称SQL),包括海量数据过滤、聚合计算、多表连接、集合交集、集合并集、集合差集、窗口函数分析等各种SQL计算类型。
基于大数据场景的实时分析型数据仓库应用(通常在电商等互联网应用场景下)往往有如下特点:
海量数据:存储数据量以太字节(Terabyte,简称TB)到拍字节(petabyte,简称PB)级为单位计量;
高并发:互联网应用在线分析场景,例如:实体明细查询、基于属性的人群圈定、基于地理位置的人群圈定、人群画像、风险识别与控制、智能伴随分析、研判分析等,需要在页面交互时以毫秒级的速度返回。
由此在分布式计算的场景下,充分利用计算资源,支撑“海量数据”的“高并发”一直是ADS的计算优化目标。
用户在同一份海量数据下的应用的SQL的工作量具有多样性,例如:
资源消耗非常低的数据过滤和查找;在一定数据集合上聚合计算、集合交集、集合并集、集合差集、窗口分析函数;多表连接;集合的机器学习类迭代。计算;
这些不同类型的SQL运算有着差异巨大的运算开销(CPU开销、IO开销、内存开销、网络数据传输开销等),难免会由于资源消耗互相造成影响,高并发场景尤其突出,实际应用场景中,常常发生一个“资源大户”(无论是CPU开销、IO开销、内存开销还是网络数据传输开销)的SQL严重消耗系统资源,使得“高并发”的“短查询”也变成了“长查询”、甚至严重超时,从而影响在线业务。
解决这类问题常常从多个方面入手:
应用业务隔离:按照不同的业务类型进行资源隔离,隔离粒度可大可小,如数据库隔离、表隔离、计算负载节点隔离、CPU内核绑定等;
查询优先级控制:对不同资源开销的SQL进行优先级划分,达到按优先级排队的处理目的,优先让出资源运行“高优先级”SQL;
查询本身的优化:查询优化器从SQL改写、执行计划选择、运行时计算决策等方面对查询进行优化;
物化查询表(Materialized Query Table,简称MQT):物化了涉及一个或多个表或查询的预先计算结果。而后续的查询可以通过全部或部分匹配MQT,并由传统关系型数据库的正常SQL处理来补偿剩余的来补偿剩余的查询功能,从而达到提高查询性能的目的。此属于传统关系型数据库提供用户构建结果视图集的物化存储,供查询优化器优化特定查询性能,MQT可由系统维护或用户维护。
现有技术均是基于传统查询方法的优化改进,基于资源再分配调整的基础上进行,例如,优先级分配是对时间的再分配,资源隔离是人为的对资源的强制分配,查询优化器本身就是对资源的再分配,物化查询表是对内存的分配。现有技术的优化方法与在线数据紧密关联,在面对海量数据在线查询及高并发查询时,耗费大量的资源,影响查询的速度,影响在线业务。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711135434.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据处理方法和装置
- 下一篇:分布式数据库的数据访问方法及其系统