[发明专利]基于对象存储Hadoop提交器的实现方法及装置有效
申请号: | 202010188188.2 | 申请日: | 2020-03-17 |
公开(公告)号: | CN111400257B | 公开(公告)日: | 2021-10-01 |
发明(设计)人: | 战策;张旭明;王豪迈;胥昕 | 申请(专利权)人: | 星辰天合(北京)数据科技有限公司 |
主分类号: | G06F16/16 | 分类号: | G06F16/16;G06F16/172;G06F16/182 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 周春枚 |
地址: | 100097 北京市海淀区蓝*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 对象 存储 hadoop 提交 实现 方法 装置 | ||
1.一种基于对象存储Hadoop提交器的实现方法,其特征在于,包括:
读取一个或多个文件,其中,所述文件的自定义元数据用于表征所述文件的描述信息;
使用文件秒合功能将一个或多个所述文件进行合并,生成新文件;
将所述新文件存储到目标目录下,其中,所述新文件作为软连接用于指向对应的源数据文件;
在读取一个或多个文件之前,所述方法还包括:
创建所述目标目录,并创建作业目录到指定的文件目录下;
在执行作业中的任务时,在所述作业目录中创建临时提交文件目录,其中,所述临时提交文件目录用于存储执行所述作业中任务而生成的文件;
在所述作业中的一个或多个任务执行成功之后,生成一个或多个所述文件;
将输出的一个或多个所述文件存储至所述临时提交文件目录下;
使用文件秒合功能将一个或多个所述文件进行合并,生成新文件,包括:
当所述作业中的所有任务都执行完成之后,将所述临时提交文件目录下的所有文件进行合并,生成所述新文件,并将所述新文件提交到所述目标目录下。
2.根据权利要求1所述的方法,其特征在于,在将输出的一个或多个所述文件存储至所述临时提交文件目录下之后,所述方法还包括:删除所述临时提交文件目录下的所有文件。
3.根据权利要求1所述的方法,其特征在于,在一个或多个所述文件合并时,所述文件的API接口合并生成所述软连接,其中,将所述文件对应的作业信息保存在所述软连接的元数据中。
4.根据权利要求1至3中任意一项所述的方法,其特征在于,在将所述新文件存储到目标目录下之后,所述方法还包括:在所述目标目录下生成标记文件,所述标记文件用于标记作业已经执行完成。
5.一种基于对象存储Hadoop提交器的实现装置,其特征在于,包括:
读取模块,用于读取一个或多个文件,其中,所述文件的自定义元数据用于表征所述文件的描述信息;
合并模块,用于使用文件秒合功能将一个或多个所述文件进行合并,生成新文件;
存储模块,用于将所述新文件存储到目标目录下,其中,所述新文件作为软连接用于指向对应的源数据文件;
所述装置还包括:
第一创建模块,用于创建所述目标目录,并创建作业目录到指定的文件目录下;
第二创建模块,用于在执行作业中的任务时,在所述作业目录中创建临时提交文件目录,其中,所述临时提交文件目录用于存储执行所述作业中任务而生成的文件;
生成模块,用于在所述作业中的一个或多个任务执行成功之后,生成一个或多个所述文件;
保存模块,用于将输出的一个或多个所述文件保存至所述临时提交文件目录下;
所述装置还包括:
子保存模块,用于当作业中的所有任务都执行完成之后,将临时提交文件目录下的所有文件进行合并,生成新文件,并将新文件提交到目标目录下。
6.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1至4中任意一项所述的一种基于对象存储Hadoop提交器的实现方法。
7.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至4中任意一项所述的一种基于对象存储Hadoop提交器的实现方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于星辰天合(北京)数据科技有限公司,未经星辰天合(北京)数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010188188.2/1.html,转载请声明来源钻瓜专利网。