[发明专利]文件管理方法及装置有效
申请号: | 201610827166.X | 申请日: | 2016-09-18 |
公开(公告)号: | CN107844483B | 公开(公告)日: | 2020-07-28 |
发明(设计)人: | 陆云飞 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/68 | 分类号: | G06F16/68 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 朱雅男 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文件 管理 方法 装置 | ||
本发明公开了一种文件管理方法及装置,属于分布式技术领域。所述方法包括:获取与待存储的音频文件匹配的文本数据的文本长度值;根据所述文本长度值,在创建的至少一个索引文件中确定第一索引文件,所述第一索引文件用于存储与所述文本长度值匹配的音频文件的索引数据;将所述文本数据的哈希标识写入所述第一索引文件;将所述音频文件写入与所述第一索引文件对应的数据文件,将所述音频文件的存储地址写入所述第一索引文件。本发明通过将索引文件按照文本数据的文本长度值进行划分和对音频文件的文本数据进行哈希运算,实现了基于文本数据的文本长度值和哈希标识对音频文件进行存储管理,编程操作方便且支持分布式访问,文件处理效率较高。
技术领域
本发明涉及分布式技术领域,特别涉及一种文件管理方法及装置。
背景技术
在互联网技术飞速发展的今天,越来越多信息被数据化处理,这使得诸如图片、邮件、电子书、互联网档案等小文件呈几何式增长。比如,一个大型社交网络仅每周提供的图片数据便多达60TB。面对海量的小文件,为了保证服务器端的磁盘访问效率,如何对海量小文件进行安全有效的管理,成为了本领域技术人员时下必须面对的一个重要课题。
在HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)中,文件归档技术在HDFS上构建了一个层次化的文件系统,通过将小文件打包成HAR文件来进行存储管理,以减少HDFS中的文件数量;而Sequence File(序列文件)通过将key,value对序列化到Sequence File,实现多个小文件的合并存储管理。其中,Sequence File是Hadoop用来存储二进制形式的key,value对而设计的一种平面文件。在ReiserFS文件系统中,使用特殊优化的平衡树来容纳小文件的数据本身以及文件名等,ReiserFS可将小文件直接存储进树。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
Hadoop受限于自身架构因素,在处理小文件时的效率较低,并且编程操作不方便,限制了仅用java实现。对于ReiserFS来说,并不支持分布式的访问,且受限于自身架构因素在小文件的数量过大时处理效果较差。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种文件管理方法及装置。
所述技术方案如下:
第一方面,提供了一种文件管理方法,所述方法包括:
获取与待存储的音频文件匹配的文本数据的文本长度值,所述音频文件通过对所述文本数据进行语音转换得到;
根据所述文本长度值,在创建的至少一个索引文件中确定第一索引文件,所述第一索引文件用于存储与所述文本长度值匹配的音频文件的索引数据;
将所述文本数据的哈希标识写入所述第一索引文件;
将所述音频文件写入与所述第一索引文件对应的数据文件,将所述音频文件的存储地址写入所述第一索引文件。
第二方面,提供了一种文件管理装置,所述装置包括:
获取模块,用于获取与待存储的音频文件匹配的文本数据的文本长度值,所述音频文件通过对所述文本数据进行语音转换得到;
确定模块,用于根据所述文本长度值,在创建的至少一个索引文件中确定第一索引文件,所述第一索引文件用于存储与所述文本长度值匹配的音频文件的索引数据;
写入模块,用于将所述文本数据的哈希标识写入所述第一索引文件;
所述写入模块,还用于将所述音频文件写入与所述第一索引文件对应的数据文件,将所述音频文件的存储地址写入所述第一索引文件。
本发明实施例提供的技术方案带来的有益效果是:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610827166.X/2.html,转载请声明来源钻瓜专利网。