[发明专利]离散式索引方法与系统在审
申请号: | 201910410408.9 | 申请日: | 2019-05-17 |
公开(公告)号: | CN111949830A | 公开(公告)日: | 2020-11-17 |
发明(设计)人: | 赵乃岩 | 申请(专利权)人: | 即云天下(北京)数据科技有限公司 |
主分类号: | G06F16/901 | 分类号: | G06F16/901;G06F16/9038 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100193 北京市海淀区东*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 离散 索引 方法 系统 | ||
本发明公开了一种离散式索引方法与系统,属于数据索引技术领域。所述方法包括:根据投影计算逻辑,将问题域数据对象投影到图模型,建立图模型数据对象;根据投影计算逻辑,实例化图模型;根据实例化的图模型进行分解计算,输出并存储离散式索引数据。所述系统包括投影建立模块、实例化模块和计算存储模块。本发明提供的离散式索引方法与系统能够有效解耦数据孤岛关联关系,实现计算逻辑向数据的分配与迁移,进而通过分布式计算显著提升整体数据分析效率。
技术领域
本发明涉及数据索引技术领域,特别涉及一种服务于异地异构数据孤岛联合数据分析的数据索引方法与系统。
背景技术
在关系数据库中,索引是一种单独的、物理的对数据库表中一列或多列的值进行排序的一种存储结构,它是某个表中一列或若干列属性值的集合和相应的指向表中物理标识这些值的数据页的逻辑指针清单。索引的作用相当于图书的目录,可以根据目录中的页码快速查询到所需的内容。在其他技术领域,如搜索引擎等,索引所包含的意义与上述关系数据库类似。
查询与分析计算过程定义如下:给定一个输入集合M从数据集X中获取输出集合N,如果在获取N的计算过程中仅包含针对数据集X的遍历与提取计算操作,那么获取N的计算过程称之为“查询”;如果在获取N的计算过程中还包括额外的数据计算和加工环节,那么获取N的计算过程称之为“分析”。举例而言,从一个社交数据库针对输入一组身份证号码集合获取身份证号码对应的人员姓名、年龄等属性数据,因整个过程仅包含遍历(遍历身份证号码集合)和提取(每个身份证对应的人员姓名、年龄属性等)操作,所以该计算过程属于“查询”;如果从该数据库针对同样的输入找到包含“人员姓名是张三的”的符合条件社交朋友圈,因整个过程除了遍历和提取计算操作外还包括额外获得“张三”社群信息的复杂数据计算逻辑,所以该计算过程属于“分析”。在本发明中,定义服务于查询计算(即遍历计算环节)效率提升的存储结构为查询索引;同理,定义服务于分析计算(即非遍历计算环节)效率提升的存储结构为分析索引。
目前已有的索引技术都是为提升查询检索(即遍历)数据/信息效率服务的,根据上述定义,属于“查询索引”。然而现实应用中,“分析”计算过程比“查询”计算过程更加耗时耗力,更需要通过“索引”技术进行提升效率(索引本身属于“空间换时间”的性能提升技术手段)。另外,由于分析计算逻辑通常会因实际解决问题场景不同而拥有不确定性,很难像“查询”计算过程统一清晰定义(即遍历计算),因此现有索引技术无法提供统一通用方法体系建立数据对象实例与计算逻辑片段的逻辑指针清单,服务于数据分析计算效率提升。
发明内容
为了解决现有索引技术无法服务于数据分析计算效率提升的问题,本发明提供了一种能够服务于数据分析计算效率提升的分析索引方法,即离散式索引方法,包括如下步骤:
根据投影计算逻辑,将问题域数据对象投影到图模型,建立图模型数据对象;
根据所述投影计算逻辑,实例化所述图模型;以及
根据实例化的所述图模型进行分解计算,输出并存储离散式索引数据。
本发明还提供了一种离散式索引系统,包括:
投影建立模块,用于根据投影计算逻辑,将问题域数据对象投影到图模型,建立图模型数据对象;
实例化模块,用于根据所述投影计算逻辑,实例化所述图模型;以及
计算存储模块,用于根据所述实例化模块实例化的所述图模型进行分解计算,输出并存储离散式索引数据。
本发明提供的离散式索引方法与系统,通过根据投影计算逻辑将问题域数据对象投影到图模型,并根据投影计算逻辑,完成图模型实例化,进而实现对图模型的分解计算得到离散式索引。本发明提供的离散式索引能够有效解耦数据孤岛关联关系,实现计算逻辑向数据的分配与迁移,进而通过分布式计算显著提升整体数据分析效率。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于即云天下(北京)数据科技有限公司,未经即云天下(北京)数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910410408.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:离散数据模型方法与系统
- 下一篇:访问流量控制方法和装置