[发明专利]基因序列数据的处理方法和装置有效

专利信息
申请号: 201210147222.7 申请日: 2012-05-11
公开(公告)号: CN102841987A 公开(公告)日: 2012-12-26
发明(设计)人: 王垚燊;阮航;李萌 申请(专利权)人: 北京诺禾致源生物信息科技有限公司
主分类号: G06F19/22 分类号: G06F19/22
代理公司: 北京康信知识产权代理有限责任公司 11240 代理人: 吴贵明;余刚
地址: 100083 北京市海*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基因 序列 数据 处理 方法 装置
【说明书】:

技术领域

发明涉及数据处理领域,具体而言,涉及一种基因序列数据的处理方法和装置。

背景技术

基于短片段序列数据进行测序的方法日渐成熟,通过构建德布鲁因图(de Bruijn)的思想进行基因组序列的组装软件,成功组装了大量的全基因序列。但是,现有组装软件在进行基因序列组装时,并不考虑用来组装的基因序列是杂合基因还是纯合基因,以生物界居多的二倍体基因为例进行举例说明,现有技术中在对二倍体基因进行序列组装时,均是将二倍体基因当作纯合二倍体进行组装,对于其中的等位基因位点采取随机选取其中一个的方式进行忽略,即,舍去等位基因中的一种情况,把二倍体基因当成纯合二倍体来处理,现有技术中的此种进行基因序列数据的处理组装的方式,不仅会造成了杂合二倍体基因的单核苷酸多态性(Single Nucleotide Polymorphism,简称SNP)的位点信息损失,影响生物信息的精确性,而且对于杂合度较高、SNP信息复杂的基因,组装所得到的基因序列偏离生物自身基因序列的程度更大。

针对相关技术中基因序列数据的处理方法容易造成的生物信息缺失的问题,目前尚未提出有效的解决方案。

发明内容

本发明的主要目的在于提供一种基因序列数据的处理方法和装置,以解决现有技术中基因序列数据的处理方法容易造成的生物信息缺失的问题。

为了实现上述目的,根据本发明的一个方面,提供了一种基因序列数据的处理方法,包括:接收初始基因序列的测序数据;构建测序数据的德布鲁因图;保存德布鲁因图中的第一边序列和组成第一边序列的各个短序列,其中,第一边序列为德布鲁因图中的任一边序列;获取组成第一边序列的各个短序列的深度信息;根据组成第一边序列的各个短序列的深度信息计算第一边序列的深度信息;按照德布鲁因图中的各个边序列的深度信息和测序数据中的各个短序列化简德布鲁因图;以及切割化简后的德布鲁因图,得到测序数据的叠连群基因序列。

进一步地,按照德布鲁因图中的各个边序列的深度信息和测序数据中的各个短序列化简德布鲁因图包括:获取德布鲁因图中第一组合边序列,其中,第一组合边序列包括第一序列、第二序列和第三序列,第二序列连接在第一序列和第三序列之间,第一序列和第三序列均包括两条分支边序列,第二序列包括一条共有边序列;判断第一组合边序列中的各个边序列的深度信息是否满足预设条件;在判定第一组合边序列中的各个边序列的深度信息满足预设条件时,对比测序数据中的各个短序列,确定第一组合边序列的基因类型;以及按照基因类型拆解第一组合边序列,得到化简后的德布鲁因图。

进一步地,对比测序数据中的各个短序列,确定第一组合边序列的基因类型包括:对比测序数据中的各个短序列以确定出同属于一条短序列的第一分支边序列和第二分支边序列,其中,第一分支边序列为第一序列中的分支边序列,第二分支边序列为第三序列中的分支边序列;复制共有边序列,得到第一共有边序列和第二共有边序列;依次连接第一分支边序列、第一共有边序列和第二分支边序列,将连接后的组合边序列的类型确定为第一组合边序列的第一基因类型;以及依次连接第三分支边序列、第二共有边序列和第四分支边序列,将连接后的组合边序列的类型确定为第一组合边序列的第二基因类型,其中,第三分支边序列为第一序列中的分支边序列且第三分支边序列与第一分支边序列不同,第四分支边序列为第三序列中的分支边序列且第四分支边序列与第二分支边序列不同。

进一步地,对比测序数据中的各个短序列以确定出同属于一条短序列的第一分支边序列和第二分支边序列包括:判断第一短序列的长度是否大于共有边序列的长度,其中,第一短序列为各个短序列中的任一短序列;在判定第一短序列的长度大于共有边序列的长度时,对比第一短序列全部碱基组成以确定出同属于一条短序列的第一分支边序列和第二分支边序列;以及在判定第一短序列的长度小于或等于共有边序列的长度时,对比第一短序列的双末端碱基组成以确定出同属于一条短序列的第一分支边序列和第二分支边序列。

进一步地,判断第一组合边序列中的各个边序列的深度信息是否满足预设条件包括:判断共有边序列的深度信息值是否为分支边序列的深度信息值的第一数值倍,其中,在判定共有边序列的深度信息值为分支边序列的深度信息值的第一数值倍时,确定第一组合边序列中的各个边序列的深度信息满足预设条件。

进一步地,根据组成第一边序列的各个短序列的深度信息计算第一边序列的深度信息包括:计算组成第一边序列的各个短序列的深度信息值的平均值;以及确定计算出的平均值为第一边序列的深度信息值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京诺禾致源生物信息科技有限公司,未经北京诺禾致源生物信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210147222.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top