[发明专利]碱基序列重组系统及方法在审
申请号: | 201310369701.8 | 申请日: | 2013-08-22 |
公开(公告)号: | CN103793623A | 公开(公告)日: | 2014-05-14 |
发明(设计)人: | 朴旻 | 申请(专利权)人: | 三星SDS株式会社 |
主分类号: | G06F19/18 | 分类号: | G06F19/18 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 金光军;郭鸿禧 |
地址: | 韩国*** | 国省代码: | 韩国;KR |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 碱基 序列 重组 系统 方法 | ||
技术领域
本发明的实施例涉及一种用于分析基因组的碱基序列的技术。
背景技术
用于生产高容量短序列的第二代测序方式(NGS:Next Generation Sequencing)因其低廉的成本和迅速生成数据的能力而正在迅速地替代传统的桑格(Sanger)测序方式。并且,开发出了多种聚焦于准确度的NGS序列重组程序。然而,近来随着第二代测序技术的发展,制作片段序列的费用降低为过去的一半以下,随之可用数据的量增加,因此需要开发一种能够在短时间内准确地处理高容量短序列的技术。
序列重组的第一个步骤为通过碱基序列比对(alignment)算法而将短片段映射(mapping)于参考序列的正确位置上。其中的问题在于即使是同种个体,也可能因多种遗传性变异而导致基因组序列上的差异。而且,测序过程中的误差也可能导致碱基序列上的差异。因此,碱基序列比对算法必须有效考虑这种差异和变异而提高映射准确度。
总而言之,为了对基因组信息进行分析,需要尽量多而准确的所有基因组信息数据。而且,为了达到这一目的,首先是要开发出具有很高的准确度和较大处理量的碱基序列比对算法。然而,现有技术中的方法在满足这些需求条件方面存在局限性。
发明内容
本发明实施例的目的在于提供一种可在确保映射准确度的同时通过改善映射时的复杂度而提高处理速度的碱基序列重组方案。
为了解决如上所述的技术问题,根据本发明一个实施例的碱基序列重组系统包括:映射位置计算单元,从由短片段生成的多个种子序列中选择一个种子序列,并计算选择的种子序列在对象碱基序列中的映射位置;全局比对单元,从计算出的所述映射位置计算针对所述选择的种子序列的重复判断区域,并判断在计算出的所述重复判断区域中是否已执行全局比对,判断结果如果没有执行,则在计算出的所述映射位置上执行针对所述短片段的全局比对(Global Alignment)。
另外,为了解决如上所述的技术问题,根据本发明一个实施例的碱基序列重组方法包括如下步骤:在映射位置计算单元中,从由短片段生成的多个种子序列中选择一个种子序列,并计算选择的种子序列在对象碱基序列中的映射位置;在全局比对单元中,从计算出的所述映射位置计算针对所述选择的种子序列的重复判断区域;在所述全局比对单元中,判断在计算出的所述重复判断区域中是否已执行全局比对,判断结果如果没有执行,则在计算出的所述映射位置上执行针对所述短片段的全局比对(Global Alignment)。
另外,根据本发明一个实施例的装置包括:一个以上的处理器;存储器;以及一个以上的程序,而且,构成为所述一个以上的程序被存储于所述存储器中,并通过所述一个以上的处理器执行,其中,所述程序中包括用于执行如下步骤的命令:从由短片段生成的多个种子序列中选择一个种子序列,并计算选择的种子序列在对象碱基序列中的映射位置;从计算出的所述映射位置计算针对所述选择的种子序列的重复判断区域;判断在计算出的所述重复判断区域中是否已执行全局比对,判断结果如果没有执行,则在计算出的所述映射位置上执行针对所述短片段的全局比对。
根据本发明的实施例,由于在碱基序列比对时存储已执行全局比对的位置之后在对应位置的周围不去执行全局比对,因此可以减少在碱基序列比对过程中造成大量耗时的全局比对执行次数,并可以由此大幅减少碱基序列比对时间。
而且,通过将如上所述的不去重复执行全局比对的重复区域的大小设定为与短片段的长度成比例,从而不仅可以减少碱基序列比对时间,而且可以保持碱基序列比对的准确度。
附图说明
图1为用于说明根据本发明一个实施例的碱基序列重组方法的图。
图2为用于举例说明根据本发明一个实施例的碱基序列比对方法的误差个数计算过程的图。
图3为用于说明根据本发明一个实施例的全局比对过程的顺序图。
图4a至图4e为用于举例说明根据本发明一个实施例的全局比对过程的图。
图5为示出根据本发明一个实施例的碱基序列重组系统的模块图。
符号说明:
500:碱基序列重组系统 502:种子序列生成单元
504:映射位置计算单元 506:全局比对单元
具体实施方式
以下,参照附图说明本发明的具体实施方式。然而这仅仅是示例,本发明并不局限于此。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三星SDS株式会社,未经三星SDS株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310369701.8/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用