[发明专利]鉴定基因组中的变异的定相和连接方法有效
申请号: | 201480054553.3 | 申请日: | 2014-10-01 |
公开(公告)号: | CN105593683B | 公开(公告)日: | 2018-11-30 |
发明(设计)人: | B.G.克马尼;R.德马纳克;B.A.彼得斯 | 申请(专利权)人: | 考利达基因组股份有限公司 |
主分类号: | G06F19/22 | 分类号: | G06F19/22 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 张文辉 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 鉴定 基因组 中的 变异 连接 方法 | ||
1.一种从自生物体获得的样品确定生物体的单体型的方法,所述方法包括:
在计算机系统上接收来自所述生物体的多个核酸分子的测序的序列数据,其中所述多个核酸分子的每一个的序列数据包括:
所述核酸分子的至少一部分的一个或多个序列读出,和
对应于所述一个或多个序列读出的标签,所述标签指示所述核酸分子的来源;
对于所述多个核酸分子的每一个:
通过所述计算机系统将所述核酸分子的至少一个序列读出定位到参考基因组;
鉴定第一多个第一het,每个第一het具有各自的第一等位基因和各自的第二等位基因;
通过所述计算机系统确定所述第一多个第一het中的第一和第二等位基因的定相以确定第一重叠群,所述第一重叠群将所述第一等位基因指定为对应于第一单体型,并将所述第二等位基因指定为对应于第二单体型,
通过所述计算机系统,将第一基因座连接到所述第一重叠群,所述连接包括:
鉴定至少两个所述第一het,其具有与定位到所述第一基因座的序列读出共享标签的序列读出;和
对于所述第一重叠群的第一单体型,将第一碱基解析为第一基因座的第一基因组位置,基于所述第一碱基的解析在多个基因座序列读出上的第一基因组位置,每一个所述基因座序列读出与至少一个包括第一单体型的第一等位基因的het序列读出共享标签,其中所述het序列读出覆盖至少两个所述第一het。
2.权利要求1的方法,其中定位到所述第一基因座的至少一个所述序列读出包括在第一基因组位置处不同于所述参考基因组的碱基。
3.权利要求1的方法,其中所述连接包括:
对于每个单体型,对于所述第一基因座处的多个碱基识别,计算第一het间的共享标签的计数的总和。
4.权利要求1的方法,其中所述解析仅使用与来自至少最小数量的het的het序列读出共享标签的基因座序列读出,所述最小数量大于1。
5.权利要求1的方法,进一步包括:
鉴定第一数量的共享标签,每个共享标签对应:
定位到第一基因座的一个或多个序列读出,和
定位到所述第一重叠群的至少一个第一het的至少一个序列读出,所述第一基因座不是所述第一多个第一het中的一个;
通过所述计算机系统,基于共享标签的第一数量比标签的阈值数量大,将所述第一基因座连接到所述第一重叠群。
6.权利要求5的方法,其中每个共享的标签对应于定位到至少最小数量的het的至少一个测序读出,所述最小数量大于1。
7.权利要求5的方法,其中对于与所述第一基因座的序列读出共享标签的每个第一het,共享标签的第一数量包括标签的计数。
8.权利要求5的方法,其中所述第一重叠群的至少一个第一het与所述第一重叠群的末端相距在阈值距离之内。
9.权利要求5的方法,进一步包括:
动态确定标签的阈值数量。
10.权利要求9的方法,其中基于以下一项或多项动态确定标签的阈值数量:样品中的细胞数量,可能的标签数量,对应标签的核酸分子量,以及进行的测序深度。
11.权利要求1的方法,其中所述第一het在所述第一基因座的指定距离之内。
12.权利要求1的方法,进一步包括:
基于所述第一重叠群在所述第一基因座周围的窗内的鉴定,使用所述第一重叠群以连接到所述第一基因座。
13.权利要求12的方法,进一步包括:
基于所述第一重叠群满足一个或多个标准的鉴定,使用所述第一重叠群以连接到所述第一基因座。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于考利达基因组股份有限公司,未经考利达基因组股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201480054553.3/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用