[发明专利]基因序列数据的处理方法和装置有效
申请号: | 201210147222.7 | 申请日: | 2012-05-11 |
公开(公告)号: | CN102841987A | 公开(公告)日: | 2012-12-26 |
发明(设计)人: | 王垚燊;阮航;李萌 | 申请(专利权)人: | 北京诺禾致源生物信息科技有限公司 |
主分类号: | G06F19/22 | 分类号: | G06F19/22 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 吴贵明;余刚 |
地址: | 100083 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基因 序列 数据 处理 方法 装置 | ||
技术领域
本发明涉及数据处理领域,具体而言,涉及一种基因序列数据的处理方法和装置。
背景技术
基于短片段序列数据进行测序的方法日渐成熟,通过构建德布鲁因图(de Bruijn)的思想进行基因组序列的组装软件,成功组装了大量的全基因序列。但是,现有组装软件在进行基因序列组装时,并不考虑用来组装的基因序列是杂合基因还是纯合基因,以生物界居多的二倍体基因为例进行举例说明,现有技术中在对二倍体基因进行序列组装时,均是将二倍体基因当作纯合二倍体进行组装,对于其中的等位基因位点采取随机选取其中一个的方式进行忽略,即,舍去等位基因中的一种情况,把二倍体基因当成纯合二倍体来处理,现有技术中的此种进行基因序列数据的处理组装的方式,不仅会造成了杂合二倍体基因的单核苷酸多态性(Single Nucleotide Polymorphism,简称SNP)的位点信息损失,影响生物信息的精确性,而且对于杂合度较高、SNP信息复杂的基因,组装所得到的基因序列偏离生物自身基因序列的程度更大。
针对相关技术中基因序列数据的处理方法容易造成的生物信息缺失的问题,目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种基因序列数据的处理方法和装置,以解决现有技术中基因序列数据的处理方法容易造成的生物信息缺失的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种基因序列数据的处理方法,包括:接收初始基因序列的测序数据;构建测序数据的德布鲁因图;保存德布鲁因图中的第一边序列和组成第一边序列的各个短序列,其中,第一边序列为德布鲁因图中的任一边序列;获取组成第一边序列的各个短序列的深度信息;根据组成第一边序列的各个短序列的深度信息计算第一边序列的深度信息;按照德布鲁因图中的各个边序列的深度信息和测序数据中的各个短序列化简德布鲁因图;以及切割化简后的德布鲁因图,得到测序数据的叠连群基因序列。
进一步地,按照德布鲁因图中的各个边序列的深度信息和测序数据中的各个短序列化简德布鲁因图包括:获取德布鲁因图中第一组合边序列,其中,第一组合边序列包括第一序列、第二序列和第三序列,第二序列连接在第一序列和第三序列之间,第一序列和第三序列均包括两条分支边序列,第二序列包括一条共有边序列;判断第一组合边序列中的各个边序列的深度信息是否满足预设条件;在判定第一组合边序列中的各个边序列的深度信息满足预设条件时,对比测序数据中的各个短序列,确定第一组合边序列的基因类型;以及按照基因类型拆解第一组合边序列,得到化简后的德布鲁因图。
进一步地,对比测序数据中的各个短序列,确定第一组合边序列的基因类型包括:对比测序数据中的各个短序列以确定出同属于一条短序列的第一分支边序列和第二分支边序列,其中,第一分支边序列为第一序列中的分支边序列,第二分支边序列为第三序列中的分支边序列;复制共有边序列,得到第一共有边序列和第二共有边序列;依次连接第一分支边序列、第一共有边序列和第二分支边序列,将连接后的组合边序列的类型确定为第一组合边序列的第一基因类型;以及依次连接第三分支边序列、第二共有边序列和第四分支边序列,将连接后的组合边序列的类型确定为第一组合边序列的第二基因类型,其中,第三分支边序列为第一序列中的分支边序列且第三分支边序列与第一分支边序列不同,第四分支边序列为第三序列中的分支边序列且第四分支边序列与第二分支边序列不同。
进一步地,对比测序数据中的各个短序列以确定出同属于一条短序列的第一分支边序列和第二分支边序列包括:判断第一短序列的长度是否大于共有边序列的长度,其中,第一短序列为各个短序列中的任一短序列;在判定第一短序列的长度大于共有边序列的长度时,对比第一短序列全部碱基组成以确定出同属于一条短序列的第一分支边序列和第二分支边序列;以及在判定第一短序列的长度小于或等于共有边序列的长度时,对比第一短序列的双末端碱基组成以确定出同属于一条短序列的第一分支边序列和第二分支边序列。
进一步地,判断第一组合边序列中的各个边序列的深度信息是否满足预设条件包括:判断共有边序列的深度信息值是否为分支边序列的深度信息值的第一数值倍,其中,在判定共有边序列的深度信息值为分支边序列的深度信息值的第一数值倍时,确定第一组合边序列中的各个边序列的深度信息满足预设条件。
进一步地,根据组成第一边序列的各个短序列的深度信息计算第一边序列的深度信息包括:计算组成第一边序列的各个短序列的深度信息值的平均值;以及确定计算出的平均值为第一边序列的深度信息值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京诺禾致源生物信息科技有限公司,未经北京诺禾致源生物信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210147222.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:驾驶辅助装置
- 下一篇:一种管材切割机用升降平台
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置