[发明专利]面向基因测序大数据的云存储方法在审
| 申请号: | 201810314885.0 | 申请日: | 2018-04-10 |
| 公开(公告)号: | CN108650298A | 公开(公告)日: | 2018-10-12 |
| 发明(设计)人: | 刘辉 | 申请(专利权)人: | 常州大学 |
| 主分类号: | H04L29/08 | 分类号: | H04L29/08;G06F19/28;G06F19/22 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 213164 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 大数据 基因测序 云存储 副本 分布式文件系统 高通量测序 并发访问 存储模式 存储容量 访问频率 分析过程 横向扩展 数据文件 可用性 客户端 条块 保存 | ||
本发明提供一种面向基因测序大数据的云存储方法,针对高通量测序大数据以及分析过程中的并发访问性能、访问频率、可用性等特点,提出条块化多副本,分布式多副本以及分布式单副本三种存储模式来保存不同的数据文件。本发明提供的面向基因测序大数据的云存储方法,采用基于GlusterFS分布式文件系统实现,具有强大的横向扩展能力,通过扩展能够支持数PB存储容量和处理数千客户端。
技术领域
本发明涉及基因测序大数据处理技术领域,特别是涉及一种面向基因测序大数据的云存储方法。
背景技术
随着生物医疗技术特别是大规模基因测序的耗时与成本大大降低,精准医学与基因检测已从实验室逐步走进临床应用和普通人的生活。伴随着基因检测与精准医疗向着大规模、商业化方向发展,个人基因测序数据将出现井喷趋势,海量基因测序数据的云存储是一项具有挑战性的任务;与此同时,人们通过网络访问基因测序数据及其相关数据资源的需求也必将随之兴起。国外一些科研服务机构,包括ENCODE,ATGC提供了面向学术研究服务的基因测序大数据存储与数据挖掘工具,他们将文件存储在RAID5或者RAID10磁盘阵列存储上,这种方法缺点是单节点失效导致文件无法访问,存储空间难以扩展;而国内的基因测序机构现阶段侧重于市场开发,尚未开展对面向普通消费者的基因测序数据的云存储与检索业务。
发明内容
本发明所要解决的技术问题是:为了克服现有技术中的不足,本发明提供一种面向基因测序大数据的云存储方法,所述云存储方法可动态扩展存储空间,为基因测序大数据及其分析产生的数据文件提出了一种高性能、高可用性且经济的存储系统。
本发明解决其技术问题所要采用的技术方案是:一种面向基因测序大数据的云存储方法,包括以下步骤:首先,根据数据文件的特点对基因测序大数据进行分类,然后根据分类结果选择存储策略的类型,将基因测序大数据上传到云存储服务器的各个存储节点进行存储。上传数据文件至云存储服务器时,将文件名、文件大小以及存储路径保存至关系数据库中,其中,关系数据库包括SQL server、Mysql、oracle等都是关系型管理数据库;检索数据文件时只需从关系数据库中读取对应的记录即可,从而加快数据检索速度;从客户端下载数据文件时,先从关系数据库中读取该文件的存储路径,再从云存储服务器中读取文件内容发送给客户端。
针对高通量测序大数据以及分析过程中的并发访问性能、访问频率、可用性等特点,提出条块化多副本、分布式多副本以及分布式单副本三种存储策略来保存不同访问特征的文件。
不同存储策略的存储过程为:
(1)条块化多副本存储策略:将单个大文件分割成若干数据块,每个数据块保存在不同存储节点上,提高并发访问性能;每个数据块都存储在至少三个不同存储节点上,以提高数据可用性;
(2)分布式多副本存储策略:构建分布式集群扩展存储空间以保存海量数据,每个文件在至少两个不同存储节点保存完整副本,提高数据可用性;
(3)分布式单副本存储策略:构建分布式集群扩展存储空间以存储海量数据,每个文件只在一个节点上保存完整副本。
许多物种的基因组、转录组与表观遗传组已经通过测序并构建了图谱,测序数据分析过程中使用已知的基因组作为参考可大大提高分析的准确性;由于基因组比较大,将测序片段(read)比对到参考基因组坐标是一项非常耗时的工作。因此,比对算法(aligner)基于参考基因组构建所需要的索引文件,能大大加快比对速度;对于模式生物特别是人类,许多基因的功能以及位点变异导致的疾病都已经被揭示,形成了许多注释文件。参考基因组、转录组、比对算法需要的索引文件以及功能注释文件的特点是单个文件大,并发性能要求高,访问频率高,可用性要求高。针对这类数据文件的访问特点,本发明采用条块化多副本存储策略,将单个大文件分割成若干数据块,每个数据块保存在不同存储节点上提高并发访问性能,且每个数据块都存储在至少三个不同存储节点上以提高数据可用性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于常州大学,未经常州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810314885.0/2.html,转载请声明来源钻瓜专利网。





