[发明专利]一种获取目标文件的方法及装置有效
申请号: | 201410728999.1 | 申请日: | 2014-12-03 |
公开(公告)号: | CN105718477B | 公开(公告)日: | 2019-05-24 |
发明(设计)人: | 朱晓东;李志君;李鸫 | 申请(专利权)人: | 中国移动通信集团重庆有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 张颖玲;蒋雅洁 |
地址: | 401121*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 获取 目标 文件 方法 装置 | ||
本发明公开了一种获取目标文件的方法,其特征在于,所述方法包括:将输入的文件名表达式转换成对应的正则表达式;获取预置的根目录下的所有直接文件,并依据所述正则表达式获得所述直接文件中的目标文件。本发明还公开了一种获取目标文件的装置。
技术领域
本发明涉及数据业务接口技术领域,尤其涉及一种获取目标文件的方法及装置。
背景技术
ETL是数据抽取(Extract)、清洗(Cleaning)、转换(Transform)、装载(Load)的过程,是构建数据仓库的重要一环。在ETL整个过程中都会涉及文件接口,而对目标文件的获取则成为ETL处理中极为重要的一部分。
目前,对目标文件的获取可通过以下几种方式:1、通过编写命令行date命令实现对目标文件的匹配;2、通过windows bat通配符进行文件名描述,然后通过文件名匹配获取目标文件;3、通过Linux 1s通配符对文件进行识别获取目标文件;4、通过直接编写正则表达式获取目标文件;5、通过提供一段特征字符串,利用该特征字符串对文件名称进行index0f操作识别目标文件。
然而,上述目标文件获取方法存在诸多弊端,例如:1、简单识别方式识别很片面,识别能力低下,容易识别不到或产生错误识别;2、对维护人员不是很友善,需要维护人员有一定的命令行知识;3、脚本繁多,零散存放不方便修改和维护,脚本发生错误不容易错误定位;4、使用编程语言进行目标文件识别时,识别准确度和编程者水平有直接关系,而且多采用自定义内置规则或算法来识别,通用性和扩展性不好。
发明内容
有鉴于此,本发明实施例期望提供一种获取目标文件的方法及装置,能够高效、准确地获取目标文件,且操作简单、通用性好、扩展性强。
为达到上述目的,本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种获取目标文件的方法,所述方法包括:
将输入的文件名表达式转换成对应的正则表达式;
获取预置的根目录下的所有直接文件,并依据所述正则表达式获得所述直接文件中的目标文件。
上述方案中,所述将输入的文件名表达式转换成对应的正则表达式包括:
依据所述文件名表达式的组成结构将所述文件名表达式分解成固定部分、随机部分、日期部分及运算部分,识别所述日期部分的日期类型,依据所述日期类型及所述运算部分对日期部分进行运算,并对运算后的日期部分进行格式化;
分别将所述固定部分、随机部分及格式化后的日期部分的内容转换成以正则表达式的形式表示的内容,并对转换后的结果进行合成,得到对应所述文件名表达式的正则表达式。
上述方案中,所述获取预置的根目录下的所有直接文件包括:
对预置的根目录下的文件进行过滤,剔除所述根目录下所有文件夹和所述文件夹包含的内容,以及所有子目录和所述子目录下包含的内容,获得所述根目录下的所有直接文件。
上述方案中,所述依据所述正则表达式获得所述直接文件中的目标文件包括:
依据所述正则表达式对所有直接文件进行筛选,获得目标文件,并循环遍历所有直接文件直至获取所述直接文件中所有目标文件。
上述方案中,所述依据所述正则表达式获得所述直接文件中的目标文件之后,所述方法还包括:
获取所述目标文件的接口属性、文件属性及文件组属性并保存。
本发明实施例还提供了一种获取目标文件的装置,所述装置包括:转换模块及获取模块;其中,
所述转换模块,用于将输入的文件名表达式转换成对应的正则表达式;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团重庆有限公司,未经中国移动通信集团重庆有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410728999.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种将数据录入数据库的方法及装置
- 下一篇:检索算法评估推荐方法和系统