[发明专利]一种利用基因组数据探究疾病亚型亲缘性的方法有效
申请号: | 202010469680.7 | 申请日: | 2020-05-28 |
公开(公告)号: | CN111653312B | 公开(公告)日: | 2021-04-16 |
发明(设计)人: | 侯群星;袁卫兰;高军晖;林灵;吴昊天;蒋丽莎;李无霜;王瑶瑶;吴守信;许骋 | 申请(专利权)人: | 上海宝藤生物医药科技股份有限公司;上海宝藤医学检验所有限公司;上海张江医学创新研究院 |
主分类号: | G16B20/20 | 分类号: | G16B20/20;G16B20/50;G16B30/10;G16B40/00 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 巩克栋 |
地址: | 201203 上海市浦东新区中国*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 利用 基因组 数据 探究 疾病 亲缘 方法 | ||
1.一种疾病亚型亲缘性的分析方法,其特征在于,所述方法包括采用超几何分布检验获取基因非沉默突变富集值的步骤;
所述基因非沉默突变富集值为基因在疾病亚型中发生非沉默突变的比例与基因在所有样本中发生非沉默突变的比例的比值;
所述疾病亚型的分组数量不小于3。
2.根据权利要求1所述的方法,其特征在于,所述方法包括以下步骤:
(1)对肿瘤和正常样本进行测序,获取全外显子测序数据;
(2)根据测序数据分析样本的体细胞突变情况;
(3)对突变位点进行注释;
(4)将注释结果进行格式转换,并对突变类型进行注释;
(5)根据注释后的突变类型,筛选出非沉默突变类型;
(6)计算样本中基因非沉默突变富集值;
(7)根据基因非沉默突变富集值,使用层次聚类方法计算疾病亚型间的亲缘性。
3.根据权利要求2所述的方法,其特征在于,步骤(2)所述分析的步骤为:
1)对获得的全外显子测序数据进行过滤,筛选Q20≥90%、Q30≥80%的测序数据;
2)对参考基因组构建比对索引,并将步骤1)筛选后的测序数据比对到参考基因组,得到比对后的数据;
3)统计测序数据中比对到参考基因组的测序序列的比例;
4)计算步骤2)获得的比对后的数据的深度、平均比对质量和覆盖度;
5)统计步骤2)获得的比对后的数据在参考基因组的目标区域的比例、平均覆盖深度和覆盖度;
6)标记步骤2)获得的比对后的数据中的PCR重复序列,并对PCR重复序列进行去重;
7)对步骤6)获得的去重后的数据进行位点矫正;
8)对步骤7)矫正后的数据进行分组;
9)对步骤8)分组后的数据进行过滤,得到变异频率大于5%的初始体细胞突变。
4.根据权利要求2所述的方法,其特征在于,步骤(3)包括:对步骤(2)获得的变异频率大于5%的初始体细胞突变进行筛选,并对筛选后的体细胞突变进行注释的步骤。
5.根据权利要求2所述的方法,其特征在于,步骤(5)所述非沉默突变类型包括移码缺失突变、移码插入突变、框内缺失、框内插入、错义突变、无义突变、终止密码子突变或剪接位点中的任意一种或至少两种的组合。
6.根据权利要求2所述的方法,其特征在于,在步骤(6)之前还包括:根据筛选出的非沉默突变类型数据,统计基因在样本中的非沉默突变情况,得到基因非沉默突变情况与样本的矩阵数据。
7.一种疾病亚型亲缘性的分析装置,其特征在于,所述装置包括基因非沉默突变富集值计算模块,用于统计基因在样本中的非沉默突变情况,所述基因非沉默突变富集值为基因在疾病亚型中发生非沉默突变的比例与基因在所有样本中发生非沉默突变的比例的比值;
所述疾病亚型的分组数量不小于3。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
测序模块,用于获取肿瘤和正常样本的全外显子测序数据;
样本体细胞突变情况分析模块;
突变位点注释模块,用于对初始体细胞突变结果进行筛选,并对筛选后的体细胞突变位点进行注释;
格式转换和突变类型注释模块,用于对突变类型进行注释;
非沉默突变类型筛选模块,用于筛选突变类型为移码缺失突变、移码插入突变、框内缺失、框内插入、错义突变、无义突变、终止密码子突变或剪接位点中的任意一种或至少两种的组合;
疾病亚型间的亲缘性计算模块,用于根据基因非沉默突变富集值,使用层次聚类方法计算疾病亚型间的亲缘性。
9.根据权利要求8所述的装置,其特征在于,所述样本的基因突变情况分析模块包括:
测序数据质控单元,用于对获得的全外显子组测序数据进行过滤,并筛选Q20≥90%、Q30≥80%的测序数据;
序列比对单元,用于构建参考基因组比对索引,将质控后的数据比对到参考基因组,并获得比对后的数据;
比对数据分析单元,用于统计测序数据中比对到参考基因组的测序序列的比例,计算比对后的数据的深度、平均比对质量和覆盖度,统计比对后的数据在参考基因组的目标区域的比例、平均覆盖深度和覆盖度;
比对数据处理单元,用于获得比对后的数据中的PCR重复序列,并对PCR重复序列进行去重,对去重后的数据进行位点矫正,对矫正后的数据进行分组;
初始体细胞突变位点获取单元,用于对分组后的数据进行过滤,得到变异频率大于5%的初始体细胞突变。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海宝藤生物医药科技股份有限公司;上海宝藤医学检验所有限公司;上海张江医学创新研究院,未经上海宝藤生物医药科技股份有限公司;上海宝藤医学检验所有限公司;上海张江医学创新研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010469680.7/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置