[发明专利]用于演进分析的系统有效

专利信息
申请号: 201380011695.7 申请日: 2013-05-31
公开(公告)号: CN104137095B 公开(公告)日: 2017-10-20
发明(设计)人: V.H.哈奇古穆斯;J.桑卡拉纳拉亚南;J.勒菲弗尔;J.塔特穆拉;N.波利佐蒂斯 申请(专利权)人: 美国日本电气实验室公司
主分类号: G06F17/00 分类号: G06F17/00;G06F17/30
代理公司: 中国专利代理(香港)有限公司72001 代理人: 申屠伟进,陈岚
地址: 美国新*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 演进 分析 系统
【说明书】:

本申请是于2012年6月27日提交的序列号为61664971的临时申请的非临时申请并要求该临时申请的优先权,该临时申请的内容通过引用而并入。

背景技术

发明涉及演进分析。

知识驱动的企业采用了运用其业务的每个方面的进取型策略,并鼓励雇员在所收集的大量原始数据中找到价值。数据驱动的决策(DDD)没有给不受改变影响的知识驱动的企业留余地,只要在数据中存在足够的证据对其进行支持即可。组织收集数据作为可能具有未知价值的日志,因而,执行提取-变换-加载(ETL)由于ETL的高支出而不可行。ETL需要昂贵的正式过程,并需要数据看起来像什么以及价值驻留于何处的先验知识。典型地,日志是大的、平的且具有低结构,增加了典型数据库的ETL的复杂度,这是由于这需要一种数据库设计,其中其结构完全是预定义的。出于这些原因,许多数据从未被彻底地评估,并且需要数据分析者来分析现代组织所收集的不断增长的数据量并产生可付诸行动的见解。如所期望的那样,这种类型的分析本质上是高度探索性的并涉及下述迭代过程:数据分析者以对数据的初始查询开始,检查结果,然后重新制定查询,且甚至可以将附加数据源带进来,等等。典型地,这些查询涉及与数据的类型和分析的目的相联系的完善的、域专用的操作,例如,通过推特消息(tweets)来执行情感分析或者计算每个节点在大社交网络内的影响。

大规模系统(诸如MapReduce(MR)和Hadoop)执行中间作业结果的进取型物化,以支持容错。当作业与由数据分析者提交的探索性查询相对应时,这些物化产生物化视图的大集合,其典型地捕获来自相同分析者的接续查询当中或者甚至跨越对类似假设进行测试的不同分析者的查询的公共计算。不出所料的是,如果MapReduce是原始框架,则其开源化身Hadoop或衍生系统(诸如供应说明性查询语言的Pig和Hive)已变成用于这种类型的分析的实际的工具。除了供应对大数据集的可扩缩性外,MR便于并入新数据源,这是由于不存在在最前面定义纲要和导入数据的需要,并且MR通过可在数据上应用的用户定义函数(UDF)的机制提供可扩展性。

UDF是处于在关系数据库和存储装置(诸如SQL)中可用的标准操作的范围外的那些UDF。典型UDF的示例是分类函数。这可能将user_id和某文本当作输入,然后从该文本提取一些实体(对象,专有名词)并将用户的周围文本分类为与那些实体有关的正面或负面情感。由于数据值是未知的,因此分析者最初通常缺乏对数据的完整理解,并将需要提出初始查询(工作流),然后随着当前答案通知查询的向着最终期望成果的下一演进,改善该初始查询。此外,诸如UDF之类的复杂函数通常需要通过反复试验(trial and error)而凭经验调谐,分析者通常将需要重复和改善分析任务多次,直到他们对关于数据的成果满意为止。

由于单个MR作业的计算范围有限,因此科学家典型地把查询实现为将数据馈送至彼此的全体MR作业。相当频繁地,以说明性查询语言(例如,使用HiveQL和PigLatin)编写这种查询,并且然后将这种查询自动翻译成MR作业的集合。

不管MR系统的普及度如何,查询性能仍是关键问题,其进而直接影响数据分析者可测试假设和汇集成结论的“速度”。可以通过减小MR的开销来实现一些增益,但是,性能的关键阻碍是吸收大数据集且跨越若干MR作业(实践中,公共类别)的查询的内在复杂度。先验调谐(例如,通过对数据重新组织或预处理)由于探索性分析的流动性和不确定性而相当富有挑战性。

发明内容

在一个方面中,一种用于演进分析的系统通过下述操作来支持三个维度(分析工作流、用户和数据演进):通过使用物化为系统中的先前工作流执行运行的一部分的答案,重写工作流以便更高效。

在另一方面中,一种用于演进分析的系统通过下述操作来支持该三个维度:通过使用物化为系统中的先前工作流执行运行的一部分的答案,重写工作流以便更高效。该系统将查询重写部件与由分析者使用的现有查询执行引擎进行集成。优化器采取以某说明性语言编写的查询并将其翻译成由MR作业构成的执行计划。通过将重写器14以及物化的视图元数据存储装置16进行集成来扩展目标执行引擎。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于美国日本电气实验室公司,未经美国日本电气实验室公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201380011695.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top