[发明专利]一种三代全长转录组辅助基因预测的方法在审
申请号: | 202110322129.4 | 申请日: | 2021-03-25 |
公开(公告)号: | CN113077842A | 公开(公告)日: | 2021-07-06 |
发明(设计)人: | 郑洪坤;刘福䶮;李绪明;李婧姬;王晶 | 申请(专利权)人: | 北京百迈客生物科技有限公司 |
主分类号: | G16B20/30 | 分类号: | G16B20/30;G16B30/10 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 钱云 |
地址: | 101300 北京市顺义区南*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 全长 转录 辅助 基因 预测 方法 | ||
本发明涉及生物信息技术领域,具体涉及一种三代全长转录组辅助基因预测的方法。本发明所述方法包括利用同源物种的基因信息和二代转录组数据信息获取待预测物种基因组高可靠内含子剪切位点;利用所述高可靠内含子剪切位点,对三代全长转录组测序数据预测的内含子剪切位点进行自动化纠正,获取高可靠性转录本后进行基因结构预测。本发明所述方法可实现可变剪接的预测,从而利用三代全长转录组数据对动植物基因组的基因结构在全基因组水平上进行高准确性的预测。
技术领域
本发明涉及生物信息技术领域,具体涉及一种利用三代全长转录组测序数据辅助进行全基因组基因结构预测的方法。
背景技术
真核生物基因在转录过程中会修剪内含子,并拼合外显子,最后形成转录本。而正是由于这种剪切形式的存在,造成了真核生物基因可以采用不同的剪接形式(可变剪接),形成不同的转录本,从而发挥更加广泛且精准的作用,这同时也导致了真核生物基因结构预测难度较大。
目前针对真核生物基因预测,主要采用以下3种不同的策略:同源预测(homology-based prediction)、从头预测(de novo prediction)和基于转录组预测(transcriptome-based prediction)。由于目前已经发表了大量基因组,可以利用同源物种间基因序列较好的保守性原理,确定剪切位点。转录组预测指通过各个组织混合的RNA-seq和三代全长转录本数据来辅助基因预测。由于转录组这种数据是本物种基因结构的最直接反应,因而利用此种类型数据,可以比较真实准确的确定外显子区域和剪切位点,在基因预测三种策略中属于可靠性最高的策略。
目前常用的转录组辅助基因预测方法是采用二代转录组测序数据进行的。但是二代转录组测序,通常是将提取的RNA片段打断成小片段进行测序,后期通过对小片段测序数据(read)进行组装(如采用Tirnity软件),获取相对完整的转录本。但是由于测序片段较短可能会存在组装错误或者组装不完整,导致不能准确获得完整转录本,进而对基因预测的完整性和准确性产生严重的影响。
而目前正在发展的三代测序平台,尤其是Nanopore平台,低成本且可以直接获取高质量的全长转录本序列,无需组装,一条测序read即可跨越全长转录本,因此通过将read比对基因组就能够非常容易的确定基因在基因组上的位置和其完整结构,因而非常有利于基因的注释工作,且准确性较高。但同时考虑目前三代测序平台获取的全长转录本所有碱基的准确率在85%左右,存在一些插入和缺失错误,尤其是发生在内含子剪切位点上的错误(非剪接位点即外显子内部序列错误可以通过比对基因组直接进行纠正,不会存在任何误差;而内含子剪接位点序列由于不能区分是内含子还是错误,导致此区域纠正存在困难)会对基因预测产生较为严重的影响,因而限制了大部分基于二代转录组开发的基因预测软件的使用,必须有新的软件兼容这种三代全长但有小部分错误的数据。
目前分析三代测序数据辅助基因预测的软件只有LoReAn一款,但是该软件只能对整体转录本序列进行纠错,未关注基因预测中最核心的内含子剪切位点的纠正,导致纠正误差较大;同时他单纯依靠自身及二代转录组预测,没有依靠同源物种信息,会导致纠正不完全的问题。因此亟需开发具有结合多层次数据(同源和转录组)及对基因预测影响更大的内含子剪接位点纠错方法,实现基因组的基因结构的全面、准确的预测。
发明内容
本发明的目的是提供一种利用三代全长转录组辅助进行全基因组基因结构预测的方法。
为了实现本发明的目的,本发明第一方面提供一种全基因组水平基因结构预测的方法,包括:
使用物种的二代测序数据和同源物种基因信息去预测物种基因结构,获取物种的二代测序数据和同源物种基因信息中内含子剪切位点信息的交集;
所述交集与物种三代全长转录组数据中的内含子剪切位点进行合并;
所述合并后的内含子剪切位点用于鉴定并纠正物种三代全长转录组数据预测基因结构得到的内含子剪切位点,获取转录本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百迈客生物科技有限公司,未经北京百迈客生物科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110322129.4/2.html,转载请声明来源钻瓜专利网。