[发明专利]一种处理扩增子数据的方法、系统、平台及存储介质有效
申请号: | 201910636461.0 | 申请日: | 2019-07-15 |
公开(公告)号: | CN110504006B | 公开(公告)日: | 2023-03-28 |
发明(设计)人: | 朱奇;潘钊文;廖传荣 | 申请(专利权)人: | 广州奇辉生物科技有限公司 |
主分类号: | G16B30/10 | 分类号: | G16B30/10;G16B50/30 |
代理公司: | 广州容大知识产权代理事务所(普通合伙) 44326 | 代理人: | 刘新年 |
地址: | 510320 广东省广州市广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 处理 扩增 数据 方法 系统 平台 存储 介质 | ||
1.一种处理扩增子数据的方法,其特征在于,所述的方法具体包括如下步骤:
获取下机扩增子数据,将同一批的下机扩增子数据,按照项目类型放置;
对扩增子数据进行去除和过滤处理;
获取参考基因组数据,并将经过去除和过滤处理后得到的扩增子数据与参考基因组进行比对,得到扩增子比对后格式文件;
获取扩增子信息文件,将扩增子信息文件与扩增子比对后格式文件进行统计分析处理,得到每一个扩增子的捕获数据;
去除测序接头;对下机fastq文件进行分析,根据所输入的adapter序列,去除fastq文件中对应的adapter序列,预设常见的adapter序列,同时,输入自定义序列,亦支持同时输入多条adapter序列;或使用cutadapt软件去除每个fastq文件的adapter序列,设定错误率为ER,设定overlap值,设定过滤后最短长度;过滤低质量的reads,将结果文件自动输出到设定的输出文件夹下的cutadapt文件夹中;
过滤后序列比对;将过滤后得到的fastq文件选择来源于ucsc的参考基因组hg19、hg38,或来源于ncbi的参考基因组GRCh37以及GRCh38,或以及来源于GATK的参考基因组进行比对;
序列比对后文件格式转换;使用二进制压缩算法,将sam文件转换为二进制的bam文件,使用samtools的view模式,同时加入参数-b、-S、-h;将bam文件进行排序处理,选择排序的模式为按染色体编号进行排序或按read名称进行排序;
扩增子目标区域比对;对bam文件与扩增子信息文件进行比较统计,扩增子信息文件根据项目进行调整新建;对扩增子信息文件归类,整理为projectamp文件;
最终结果输出;通过统计cutadapt,removeread,selectRead文件夹内结果数据的reads数,与总reads数通过回归比较算法进行对比,得到Dimer值;通过计算每个selectRead中bam文件的reads数与总reads数进行比较,以百分比算法得到均一性和特异性;通过计算扩增子信息文件中每个位置的覆盖深度,得到20X深度的百分比以及100X深度的百分比,同时,自定义统计的深度;
查看最终结果;在result文件夹下的excel表格中,allSample表为每个样本的质量值统计,包含了总校正reads数,过滤的校正reads数,比对上基因组的reads数,扩增子(amplicon)数目,均一性,特异性,Dimer,平均深度,20x以上百分比,100x以上百分比;除allSample表外,每个项目单独形成一份单独表格,在每个项目的表格下,呈现该项目的每个样本,每个扩增子的捕获的reads数百分比,同时展示该项目的总体均一性,特异性,Dimer,平均深度,20x以上百分比,100x以上百分比。
2.根据权利要求1所述的一种处理扩增子数据的方法,其特征在于,于步骤获取下机扩增子数据,将同一批的下机扩增子数据,按照项目类型放置之前,还包括步骤:
获取样本数据信息;
所述的样本信息包括每个样本的项目类型信息,受检者信息。
3.根据权利要求1所述的一种处理扩增子数据的方法,其特征在于,所述的按照项目类型放置,具体为根据样本信息中的项目类型信息,将不同的项目下机扩增子数据自动放置到不同文件夹下。
4.根据权利要求1所述的一种处理扩增子数据的方法,其特征在于,所述的扩增子比对后格式文件具体为sam文件。
5.根据权利要求1所述的一种处理扩增子数据的方法,其特征在于,于步骤获取下机扩增子数据,将同一批的下机扩增子数据,按照项目类型放置之中,还包括步骤:
添加新的扩增子数据项目类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州奇辉生物科技有限公司,未经广州奇辉生物科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910636461.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:数据处理方法
- 下一篇:一键化完成多场景菌种鉴定的工作方法及系统
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置