[发明专利]基于FPGA的面向基因测序串匹配算法的加速平台及设计方法在审
申请号: | 201810698010.5 | 申请日: | 2018-06-29 |
公开(公告)号: | CN108595917A | 公开(公告)日: | 2018-09-28 |
发明(设计)人: | 李曦;王超;娄文启;周学海 | 申请(专利权)人: | 中国科学技术大学苏州研究院 |
主分类号: | G06F19/20 | 分类号: | G06F19/20;G06F19/28 |
代理公司: | 苏州创元专利商标事务所有限公司 32103 | 代理人: | 范晴 |
地址: | 215123 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 通用处理器 读取 字符串数据 基因测序 串匹配 算法 写入 流水线方式 独立IP核 匹配结果 硬件知识 加速器 固化 编程 部署 | ||
本发明公开了基于FPGA的面向基因测序串匹配算法加速平台及设计方法,加速平台包括PS(Program System)与PL(Program Logic)两部分,PS端包含通用处理器以及DRAM以完成软件端代码的运行以及硬件部分的控制,PL端包含多个可根据需求固化的IP核来以实现相应任务,首先通用处理器将字符串数据写入DRAM中,然后FPGA从DRAM中读取字符串数据并开始计算,并把计算结果写入到DRAM中,最后通用处理器从DRAM中读取匹配结果。本发明加速器在FPGA上部署了多个用于计算的独立IP核,以流水线方式运行,使得不具备硬件知识的编程者可以利用已有的FPGA资源轻松获得良好的性能。
技术领域
本发明涉及基因测序算法的硬件加速平台,具体涉及一种通用性好和灵活性高的基于FPGA的面向基因测序串匹配算法的加速平台及设计方法。
背景技术
基因测序有很多种方法。但无论这些方法在实现上有什么不同,本质上它们都依赖DNA复制原理展开设计。DNA复制简单来说就是DNA的自我增殖过程。在复制期间DNA慢慢打开双链结构,并在各种引导酶的作用下分为两个单链并生成新的匹配短链。之后游离在细胞核中的游离碱基就会在一系列酶的作用下,加入新生成的短链使短链慢慢延展。到了复制末期,原始DNA双链完全打开,并分别与由游离碱基拼接而成的单链组成双链结构。由于碱基配对的专一性,在没有出现复制错误的情况下,两条新的双链在结构上是完全相同的,这样就实现了一条变两条的复制。
本文选取串匹配算法研究基因测序其原理就是碱基之间配对的唯一性。DNA是由四种不同的碱基组成的,一般简记为A、T、C、G。四种碱基严格按照AT两两配对,CG两两配对原则执行配对。这样一来,测量一段未知的基因片段,就可以借助一条已知片段与该未知片段进行匹配,当两片段完全匹配时,已知片段的共轭序列就是所测目标的序列。下面简单描述基因测序的串匹配流程,包含以下几个步骤。
第一步先构造若干已知的碱基序列,并对这些碱基序列进行标记以便识别。常用的标记方法为同位素标记法。第二步进行碱基对的匹配,将目标序列与构造序列放入缓冲液中进行DNA的。在DNA复制过程中,目标序列会吸收预先构造的带标记碱基进行延展,通过测量生成的新链的碱基序列就可以得到原链的序列。第三步是对短碱基序列的拼接。
随着基因测序进入大数据时代,测序工程中包含庞大的数据量,传统的计算机系统已经无法适应大数据的典型需求。目前,适用于大数据处理的平台可分为软件处理平台与硬件处理平台两类。
云计算平台和GPGPU平台是两种最为主流的大数据软件处理平台。1)云计算平台。一般来说,云计算平台由大量同构的基于CPU的单节点服务器构成,多个节点间互相配合、协同工作。云计算平台编程模型大体上可以分为基于Map-Reduce计算模型和基于图的计算模型两种,两种计算模型的本质都是利用任务级并行和数据集并行的手段来加速应用的执行。2)GPGPU平台。GPGPU平台是一种较为普及的并行加速平台,每块GPGPU处理器芯片内部往往由多个SM构成,每个SM由多个SP组成,每个SP就是一个计算单元。本质上来说,GPGPU是以SIMD的方式来利用数据级并行来加速任务的执行。目前,针对GPGPU平台提出和实现了诸如CUDA、OpenCL和OpenACC等编程规范,这大大降低了基于GPGPU的应用的开发门槛,也使GPGPU成为了目前较为广泛使用的并行加速平台。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学苏州研究院,未经中国科学技术大学苏州研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810698010.5/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用