[发明专利]用于基因组组装及单体型定相的方法有效
申请号: | 201480020008.2 | 申请日: | 2014-01-31 |
公开(公告)号: | CN105121661B | 公开(公告)日: | 2018-06-08 |
发明(设计)人: | 小R·E·格林;L·F·拉里奥 | 申请(专利权)人: | 加利福尼亚大学董事会 |
主分类号: | C12Q1/6869 | 分类号: | C12Q1/6869 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 陈建芳;阎娬斌 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基因组 组装 单体型 宏基因组分析 数据分析 可用 应用 | ||
本发明提供了用于大大加快并改善从头基因组组装的方法。本文所公开的方法利用数据分析方法,使来自一个或多个受试者的基因组的从头组装快速且便宜。本发明进一步提供,本文所公开的方法可用于多种应用,包括单体型定相和宏基因组分析。
相关申请的交叉引用
本申请要求2013年2月1日提交的临时申请号61/759,941和2013年10月17日提交的临时申请号61/892,355的权益,所述临时申请的公开内容以引用方式并入本文中。
技术领域
本发明提供了基因组组装和单体型定相的方法,用于鉴别基因组内的短的、中等的和长的连接。
背景技术
理论上和实践上仍然难以产生高质量的、高度连续的基因组序列。
发明内容
下一代测序(NGS)数据的一个长久性缺陷在于不能跨越大的基因组重复区域,这是由于读段短和插入大小相对较小。该缺陷显著地影响了从头(de novo)组装。由于基因组重排的性质和排布是不确定的,因此被长重复区域隔开的重叠群(contig)不能被连接或重测序。此外,由于变异体不能够在长距离内确信地与单倍型相关联,难以确定定相信息。通过生成具有适宜的输入DNA的、跨越数十万碱基以及多达百万碱基级别的基因组距离的极长程读对(extremely long-range read pair,XLRP),本发明能够同时解决所有这些问题。这些数据对于克服基因组中的大重复区域(包括着丝粒)所产生的问题,是非常宝贵的;能够节约从头组装的成本;并为个体化用药产生具有足够完整度、准确度的重测序数据。
在相距非常远、但分子上相连的DNA片段之间形成关联的过程中使用重构染色质,是非常重要的。本发明使远离的片段能够被放到一起并通过染色质构象共价相接,从而物理地连接DNA分子先前远离的部分。后续处理能够使关联片段的序列被确定,产生读对(read pair),其在基因组上的间隔延伸至输入DNA分子的全长。由于读对来源于同一分子,因此这些读对还含有相位信息。
在一些实施方案中,本发明提供了能够用比先前所需更少的数据产生高质量组装的方法。例如,本文所公开的方法提供了基因组组装,其仅仅来自两条泳道(lane)的Illumina HiSeq数据。
在其它实施方案中,本发明提供了能够使用长距离读对方式产生染色体水平定相的方法。例如,本文所公开的方法能够以至少99%或更高的准确度,定相90%或更多用于该个体的杂合单核苷酸多态性(SNPs)。该准确度与实质上更昂贵、更费力的方法所产生的定相相当。
在一些实施例中,能够产生达到百万碱基规模的基因组DNA片段的方法可与本文所公开的方法联用。可产生长的DNA片段,以确认本方法生成跨越由那些提取所能供给的最长片段的读对的能力。在一些情况下,可提取长度超过150kbp的DNA片段,并用其生成XLRP文库。
本发明提供了用于大大加快并改善从头基因组组装的方法。本文所公开的方法利用数据分析方法,所述方法允许来自一个或多个受试者的基因组的快速、便宜的从头组装。本发明进一步提供,本文所公开的方法可用于多种应用,包括单体型定相和宏基因组分析。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于加利福尼亚大学董事会,未经加利福尼亚大学董事会许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201480020008.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型钢绞线的连续清洗装置
- 下一篇:非复制型病毒衍生颗粒及其用途