[发明专利]一种基于大数据模型分析平台的数据溯源方法及系统有效
| 申请号: | 201610395246.2 | 申请日: | 2016-06-03 |
| 公开(公告)号: | CN106055676B | 公开(公告)日: | 2019-04-02 |
| 发明(设计)人: | 林劼;郝鹏飞;彭世锦;李年华;陆文斌;王晓明 | 申请(专利权)人: | 电子科技大学 |
| 主分类号: | G06F16/182 | 分类号: | G06F16/182;G06F16/13;G06F16/2458 |
| 代理公司: | 成都金英专利代理事务所(普通合伙) 51218 | 代理人: | 袁英 |
| 地址: | 610041 四川省成*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种基于大数据模型分析平台的数据溯源方法及系统,其方法包括以下步骤:S1.模型工作流分析:分析Hadoop平台上的模型构成的模型工作流的输入节点、输出节点和动作节点,并获取各节点的唯一标识;S2.设计溯源信息元数据模型:根据每个模型工作流对应描述一个溯源文件;S3.溯源信息存储:对所述溯源文件构建索引,将索引信息存放在缓存数据库,索引文件存放在HDFS上;S4.数据溯源追踪:判断是否追踪数据产生过程,若不追踪数据产生过程,则通过查询所述索引信息获取所述溯源文件的地址。本发明克服了传统数据溯源方法在大数据平台下不适用的问题,并为溯源文件建立索引,减少了输入/输出操作,提高了查询速度。 | ||
| 搜索关键词: | 一种 基于 数据模型 分析 平台 数据 溯源 方法 系统 | ||
【主权项】:
1.一种基于大数据模型分析平台的数据溯源方法,其特征在于:包括以下步骤:S1:模型工作流分析:分析Hadoop平台上的模型构成的模型工作流的输入节点、输出节点和动作节点,并获取各节点的唯一标识;S2:设计溯源信息元数据模型:根据每个模型工作流对应描述一个溯源文件;S3:溯源信息存储:对所述溯源文件构建索引,将索引信息存放在缓存数据库,索引文件存放在HDFS上;S4:数据溯源追踪:判断是否追踪数据产生过程,若不追踪数据产生过程,则通过查询所述索引信息获取所述溯源文件的地址;所述步骤Sl还包括以下子步骤:S11:扫描所述模型工作流,寻找所述模型工作流的第一个动作节点,获取所述第一个动作节点的输入文件路径作为所述模型工作流的输入文件路径;寻找所述模型工作流的最后一个动作节点,获取所述最后一个动作节点的输出文件路径作为所述模型工作流的输出文件路径,保存所述模型工作流的输入文件路径和所述模型工作流输出文件路径;S12:检测所述模型工作流的所有动作节点,获取所述模型工作流的唯一标识和名称,并使用邻接表缓存起来;根据每个模型工作流对应描述一个溯源文件的方法为:S21:扫描模型工作流,获取所述模型工作流的控制流节点、输入文件路径和输出文件路径;S22:检测所述模型工作流的所有动作节点及各动作节点之间的关系,将所述所有动作节点及各动作节点之间的关系作为缓存信息,使用邻接表缓存;S23:将缓存信息写入溯源文件中,并将溯源文件保存在HDFS上;S24:将所述模型工作流的输入文件路径和输出文件路径、溯源文件的地址以键值对的形式保存在缓存数据库中。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610395246.2/,转载请声明来源钻瓜专利网。





