[发明专利]一种基因组装的多线程化方法及系统在审

专利信息
申请号: 202211034382.0 申请日: 2022-08-26
公开(公告)号: CN115359842A 公开(公告)日: 2022-11-18
发明(设计)人: 李国良;张也;彭德华;吉祥宇;刘原驰;陆嘉华;赵书磊;陈星霖;唐善雯;吴蕾 申请(专利权)人: 天津大学四川创新研究院
主分类号: G16B30/20 分类号: G16B30/20;G16B30/10
代理公司: 成都金英专利代理事务所(普通合伙) 51218 代理人: 詹权松
地址: 610000 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基因组装的多线程化方法及系统,该方法包括如下步骤:S1:生成ID对接表;S2:使用B+树索引分别从硬盘或虚拟内存中提取编号read ID对应的碱基序列;S3:将对接关系后的多条序列依次与基准序列匹配;S4:读取能够和基准序列匹配的下一批编号read ID的碱基序列;S5:输出线程标识和匹配合并输出后的小型重叠群small contig;S6:当ID对接表读取完毕后,遍历ID对接表,将线程标识表中零散编号read ID的碱基序列替换为相应的碱基序列ID,并输出单核苷酸变异SNP信息表。本发明通过组建服务器集群进行计算,以其中一台作为共享存储,其他服务器各自领取任务执行,实现服务器多机并行计算,组装算法的线性性能递增,无限降低计算时间。
搜索关键词: 一种 基因 组装 多线程 方法 系统
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学四川创新研究院,未经天津大学四川创新研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/202211034382.0/,转载请声明来源钻瓜专利网。

同类专利
  • 基因组组装缺口的填补方法和装置-202310944042.X
  • 吴雅静;王龙;马策;彭珍;康玲;吴越;李萍;刘孟 - 天津诺禾致源生物信息科技有限公司
  • 2023-07-28 - 2023-10-13 - G16B30/20
  • 本发明提供了一种基因组组装缺口的填补方法和装置。该填补方法包括:从原组装基因组序列中提取出含有缺口的序列,含有缺口的序列包括缺口以及缺口的上下游序列;利用测序数据对含有缺口的序列中的缺口进行填补,得到缺口填补的序列;用缺口填补的序列替换原组装基因组中的含有缺口的序列。通过提取原组装基因组上含缺口区域的上下游序列,仅需对提取出含缺口的序列进行处理,减少后续处理的数据量。在利用测序数据对含有缺口的序列进行缺口填补时,由于仅需对提取出来的序列进行填补,而非对全基因组进行填补,因而数据量相对较小,内存占用也较小,成本低且处理速度也相对较快。
  • 一种基因辅助组装装置、染色体水平基因组及应用-202310606702.3
  • 王娟;任雪;刘涛;李志民;涂成芳;杨伟飞 - 浙江安诺优达生物科技有限公司
  • 2023-05-26 - 2023-10-10 - G16B30/20
  • 本发明涉及一种基因辅助组装装置、染色体水平基因组及应用。该装置包括Hi‑C文库构建和测序单元、比对和挑选单元、初步组装单元,以及处理和筛选单元,其中,所述Hi‑C文库构建和测序单元,用于对DNA样品进行Hi‑C文库构建和测序以获得第一数据集;所述比对和挑选单元,用于将所述第一数据集与参考基因组数据集进行比对并挑选,得到第二数据集;所述初步组装单元,用于对所述第二数据集进行初步组装,得到初步组装数据集;所述处理和筛选单元,用于对所述初步组装数据集进行处理和筛选。采用本发明的装置能够将Hi‑C辅助组装的挂载率提高至95%以上。
  • 染色体水平基因组的组装方法和组装装置-202111649960.7
  • 赵勇;周勋;康玲;陶琳娜;王静 - 上海诺禾致源医学检验实验室有限公司
  • 2021-12-29 - 2023-09-26 - G16B30/20
  • 本发明提供了一种染色体水平基因组的组装方法和组装装置。该组装方法包括:获取同一物种已知的染色体水平基因组作为参考基因组;将待组装个体的重叠群或支架通过与参考基因组比对,得到对应的坐标信息;根据坐标信息将待组装个体的重叠群或支架挂载到染色体水平,得到待组装个体的染色体水平的基因组。对于难以提供Hi‑C数据的物种,通过使用同一物种已发表的染色体水平基因组作为参考基因组,将新测个体的重叠群或支支架水平基因组比对到参考基因组,从而实现将新测个体有参挂载到染色体水平的目的。
  • 噬菌体构建方法、装置、设备及存储介质-202310771128.7
  • 李坚强;陈杰;肖敏凤;林子杰;张家骏 - 深圳大学
  • 2023-06-28 - 2023-09-22 - G16B30/20
  • 本发明涉及生物技术领域,公开了一种噬菌体构建方法、装置、设备及存储介质,该方法包括:获取原始噬菌体对应的噬菌体元件序列;根据噬菌体元件序列确定原始噬菌体对应的元件序列时序特征和生物生理特征,并基于元件序列时序特征和生物生理特征确定原始噬菌体对应的元件空间结构;通过时序生成对抗网络对元件序列时序特征、生物生理特征和元件空间结构进行特征分布拟合,获得目标噬菌体。由于本发明通过时序生成对抗网络对原始噬菌体对应的元件序列时序特征、生物生理特征和元件空间结构进行特征分布拟合后,获得目标噬菌体,从而解决了现有技术中通过噬菌体基因组重排技术进行噬菌体构建效率较低的技术问题。
  • 一种基于二代数据的动物线粒体基因组组装方法-202110120253.2
  • 李家堂;宋梦洹;严超超 - 中国科学院成都生物研究所
  • 2021-01-28 - 2023-09-22 - G16B30/20
  • 本发明属于基因组测序技术领域,具体涉及一种基于二代数据的动物线粒体基因组组装方法。本发明组装方法包括如下步骤:首先通过profile HMM对庞大的数据进行快速筛选,获得潜在的线粒体编码DNA片段,然后,利用线性迭代算法对片段进行组装获取并利用profile HMM打分获得种子序列;最后,选用线性迭代的算法,快速从测序数据中将线粒体DNA reads组装到种子序列上,直至实现线粒体全基因组的组装。本发明实现了无需人工投递种子序列并实现快速、准确、完整组装线粒体基因组的目的,且对不同物种,数据量大小和DNA reads长度的二代数据具有很好的兼容性。
  • 一种基于调制作用的DNA信息编解码方法-202310576945.7
  • 弥胜利;曹让利;黄玉;任钱伦;梁玮峰 - 清华大学深圳国际研究生院
  • 2023-05-22 - 2023-08-15 - G16B30/20
  • 本发明提出了一种基于调制作用的DNA信息编解码方法,其中编码方法包括:信息分块、信息校验、序列转换、调制优化、生成标志序列、生成寻址序列以及输出,在编码时能够通过特殊构造的调制引物对碱基序列进行优化,让碱基序列满足约束条件,同时构造出标志序列,在解码时能恢复成正确的原始信息。可将调制引物、索引序列与引物序列结合,既能保存自身寻址的功能,还可作为PCR引物进行使用,大大减少了信息冗余。此编解码方案可以针对任意计算机存储的数字信息进行编解码,并且其编码密度接近理论极限。还生成与碱基序列规模匹配的具有特异性的寻址序列数量,满足调制、寻址、PCR扩增、信息检索等多种功能的需要。
  • 一种序列组装方法及系统-202110127940.7
  • 胡江;王卓;汪德鹏 - 武汉希望组生物科技有限公司
  • 2021-01-29 - 2023-08-15 - G16B30/20
  • 本发明公开了一种序列组装方法及系统,对待组序列进行比对,获得首尾重叠比对序列;根据首尾重叠比对序列构建第一字符串,对第一字符串的目标特征进行处理,获得第二字符串图,将第二字符串图转换为序列组装结果。目标特征包括满足预设条件的边和/或节点、支线路径、Z型路径、泡状结构和复合路径中的一种或多种。本发明待组装序列可为经矫正的序列,将其作为字符串构图的数据基础,并且对字符串图进行处理,使得处理后的字符串图更加满足序列组装的需求,提升组装结果的准确性、连续性以及实现快速组装的目的。
  • 一种端粒到端粒的基因组组装方法-202211313407.0
  • 杨易;张艳;吴志坤;黎庭耀;沈卓;周轩 - 广东省农业科学院蔬菜研究所
  • 2022-10-25 - 2023-08-15 - G16B30/20
  • 本发明属于基因组组装技术领域,具体涉及一种端粒到端粒的基因组组装方法。本发明分别利用Nanopore的超长片段和PacBio高保真片段独自组装基因组,随后将Nanopore数据组装的contig作为骨架,利用PacBio片段组装的高准确性序列替换Nanopore组装共线区域低准确性序列。随后利用Hi‑C挂载contig得到染色体水平的基因组,并利用Nanopore和PacBio测序片段对基因组填补缺口和提升挂载,最终得到兼具高准确性和高连续性的端粒到端粒基因组。
  • 基于文本匹配延伸高通量测序基因的拼接方法-202210856831.3
  • 宋东光 - 佛山科学技术学院
  • 2022-07-20 - 2023-07-25 - G16B30/20
  • 本发明公开了一种基于文本匹配延伸高通量测序基因的拼接方法,涉及生物信息学领域。该拼接方法包括:获取测序序列,将其编号、组合,并选取种子序列;将种子序列第一侧的预设长度的序列隔开,得到查询序列,进行文本匹配,找到的相同序列至少两条或以上,然后合并。再用查询序列进行首尾拼接,选取最长的拼接,比较拼接序列与原序列头部,确定不是相同序列则进行新一轮首尾拼接。将序列反转互补后进行相同的拼接。本发明提供了一种精确、快速简易的高通量测序序列拼接的有效方法,可广泛用于转录组序列拼接、可变剪接、全转录谱等。
  • 用于5UTR序列重建和MRL预测的MATE架构-202310187615.9
  • 李帅成;宋相容;魏霞蔚;魏于全 - 成都威斯津生物医药科技有限公司
  • 2023-03-01 - 2023-07-18 - G16B30/20
  • 本申请涉及机器学习模型训练的方法、构建经过优化的5'UTR序列的方法、5'UTR序列、模型结构、机器学习模型训练装置、构建经过优化的5'UTR序列装置以及计算设备和计算机可读存储介质。其中,一种构建经过优化的5'UTR序列的方法,包括:(a)获取初始5'UTR序列的序列特征矩阵;(b)将所述序列特征矩阵输入经过训练的机器学习模型,生成多个更新5'UTR序列;(c)将所述多个更新5'UTR序列分别输入至所述经过训练的机器学习模型,利用所述编码器模块和所述MRL值预测模块,获取与所述多个更新5'UTR序列对应的预测MRL值;(d)基于步骤(c)中得到的所述预测MRL值,从所述多个更新5'UTR序列中确定所述经过优化的5'UTR序列。
  • 一种基于关系图建立的全基因组并行拼接方法-202211705764.1
  • 刘珍;张峰 - 哈尔滨因极科技有限公司
  • 2022-12-28 - 2023-07-04 - G16B30/20
  • 本发明提供了一种基于关系图建立的全基因组并行拼接方法,对基因组测序得到基因片段序列,基于所述基因片段序列构建片段关系图;基于所述片段关系图进行基因片段序列的分割,得到分割后的多个子集片段数据;将分割后的多个子集片段数据分发给多个接收点,接收点同步执行三次扫描过程,实现并行拼接。本发明更好地保留并连接独特序列,对更多的重复序列进行屏蔽,就能更多地降低其对拼接的干扰,实现并行拼接方法。
  • 一种基于三维组学数据的西藏特色鱼类基因组组装方法-202010399433.4
  • 刘海平;牟振波;肖世俊 - 西藏自治区农牧科学院水产科学研究所
  • 2020-05-12 - 2023-06-27 - G16B30/20
  • 本发明涉及一种基于三维组学数据的西藏特色鱼类基因组组装方法,该方法将西藏特色鱼类待测样本的Hi‑C测序数据比对到该待测样本初步基因组contig序列中获得contig序列之间的位置关系,然后填补contig序列之间的空缺获得高质量的西藏特色鱼类基因组编码信息。因此,本发明的方法显著提高了组装结果中contig水平的连续性,从而提升特色西藏鱼类复杂基因组组装的质量。同时,本发明的组装方法获得连续性更好的参考基因组,为后续进行大规模基因组上的基因进化和功能研究提供保障,也更有利于西藏和其他地区鱼类的相关功能基因的QTL定位和GWAS研究,以及相关的群体遗传多样性和群体结构研究。
  • 一种序列的编码方法及装置、可读存储介质-202110756922.5
  • 李毅;季强;樊青远;张博;宋昆 - 南方科技大学
  • 2021-07-05 - 2023-06-23 - G16B30/20
  • 本申请提供一种序列的编码方法及装置、可读存储介质。序列的编码方法包括:获取多个第一序列编码;第一序列编码为预设位数的碱基对应的指定位数的序列编码;根据预设的筛选算法对多个第一序列编码进行筛选,获得筛选后的多个第一序列编码;根据增量聚类算法基于筛选后的多个第一序列编码中的各个序列编码对应的序列之间的距离,从筛选后的多个第一序列编码中确定出多个代表序列编码;对多个代表序列编码进行拼接,确定多个第二序列编码;第二序列编码的位数大于指定位数;根据多个第二序列编码生成多个最终的序列编码;最终的序列编码对应的核酸序列用于对待测核酸进行标记。该方法用以实现误识别率低的序列编码的有效生成。
  • 一种紫薇属物种环形叶绿体基因组的组装方法-202210880532.3
  • 顾翠花;王杰;张国哲;王群;洪思丹;尚林雪;赵雨 - 浙江农林大学
  • 2022-07-25 - 2023-05-09 - G16B30/20
  • 本发明公开了一种紫薇属物种环形叶绿体基因组的组装方法,包括以下步骤:1)原始数据获取;2)数据预处理;3)数据深度处理;4)denovo组装:使用spades.py v3.15.2进行无参组装,得到scaffold文件;5)最终调整输出:使用Bandage 0.8.1进行调整scaffold文件,根据组装深度信息,对反向重复区域进行加倍,最后整体输出为环形基因组序列。本发明相较于现有技术中使用的自动成环软件,在最后调整阶段,使用Bandage软件进行可视化成环,此过程能保证叶绿体基因组四分体构象的连接方式保持一致,为后续序列分析提供便利。
  • 通过校正基因组分析的健康管理方法-202211681688.5
  • 刘志岩;郑青松;郭方 - 哈尔滨星云医学检验所有限公司
  • 2022-12-26 - 2023-04-25 - G16B30/20
  • 本发明提出了通过校正基因组分析的健康管理方法,对采集到的基因组数据进行编码校正,得到编码校正后的特征向量,从CTD数据库中获得与编码校正后的特征向量相关联的疾病数据,实现了基因与疾病的关联关系的获取;构建疾病拓扑网络和基因拓扑网络,并分别得出疾病和基因的拓扑网络结构特征,基于疾病的拓扑网络结构特征和基因的拓扑网络结构特征,获得疾病与基因的二维关联特征矩阵,基于二维关联特征矩阵中的元素和疾病、基因的拓扑网络结构特征,计算基因和疾病间的关联性,通过矩阵的构建,量化了基因和疾病间的关联关系,筛选基因和疾病间的关联性高于阈值的基因及对应的疾病,给出健康管理报告。
  • 一种测序数据组装方法-201910146649.7
  • 马丰收;张艺;何飞;刘洋 - 晶能生物技术(上海)有限公司
  • 2016-04-06 - 2023-04-14 - G16B30/20
  • 本发明涉及一种测序数据组装方法,使用光学图谱平台Irys得到基因组装文件;同时,拿到NGS的scaffold文件:fai文件;数据预处理:通过设定阈值,过滤掉可信度低的比对结果,合并cmap文件,排序,计算N50;组装效果统计:统计BioNano与NGS比对结果,包括BioNano的contig与NGS的scaffold长度、个数以及总量;根据BioNano的contig与NGS的scaffold之间的网络拓扑关系,分类分析组装出的新的contig长度与scaffold长度。可以辅助基因组组装,明显提高物种的基因组装效果。
  • 基因组hic分析的方法及装置-202211561394.9
  • 王龙;赵勇;周勋;彭珍;曹斌斌;王静;陶琳娜;李萍;马策 - 北京诺禾致源科技股份有限公司
  • 2022-12-07 - 2023-04-07 - G16B30/20
  • 本发明公开了一种基因组hic分析的方法及装置。其中,该方法包括:S1,将组装基因组和参考基因组进行比对;S2,将hic测序的二代数据和组装基因组进行比对;S3,对bam文件进行聚类;S4,聚类文件原始的.hic文件和assembly文件进行手动调整;以及S5,将S4中调整后的assembly文件中的序列名称替换为和参考基因组一致的序列名称;和/或对assembly文件过滤并提取对应的染色体组成和名称;和/或按照染色体长度进行排序。应用本发明的技术方案,根据参考基因组的序列名称,对新组装的基因组hic挂载之后的名称进行对应修改;可以按照染色体长度进行排序,并支持对指定的染色体进行单独热图绘制。
  • 一种基于寡核苷酸序列编码存储的DNA存储方法-201910090892.1
  • 肖鹏峰;费中杰 - 东南大学
  • 2019-01-30 - 2023-04-07 - G16B30/20
  • 本发明涉及一种基于寡核苷酸序列编码存储的DNA存储方法,以多种不同的碱基编码形式对不同的二进制字符串片段,实施寡核苷酸序列编码,每组二进制编码文件片段总可以找到一种满足合成、以及测序要求的寡核苷酸序列编码,大大简化了寡核苷酸编码二进制字符串片段、以及编码寡核苷酸转化成二进制字符串片段运算,实现高效编码与解码操作,可以最大限度的利用DNA分子的数据存储能力,同时简化二进制字符串片段的编码、以及编码寡核苷酸序列恢复到二进制字符串片段的运算;此外,在编码二进制字符片段中,每个碱基编码二进制的最大理论值2字节,可以减少寡核苷酸序列的数目或者长度,降低寡核苷酸合成与测序费用,拥有最大的信息存储量。
  • 载体定制方法及计算机存储介质-202211694894.X
  • 李钟文;岑文杰;丘佳倩 - 云舟生物科技(广州)股份有限公司
  • 2022-12-28 - 2023-03-31 - G16B30/20
  • 本发明提供了一种载体定制方法及计算机存储介质,载体定制方法包括以下步骤:S1、构建生产库存序列库,生产库存序列库存储有多种产品的基因序列以及存储位置;S2、获取用户需要定制的定制载体,并获得定制载体的干净序列;S3、将干净序列与生产库存序列库的基因序列进行序列比对,得到比对结果;S4、根据比对结果,计算通过生产库存序列库的基因序列合成干净序列需要的时间和成本,得到定制时间和定制成本;S5、将定制时间和定制成本与预先设定的设定参数分别进行比对,当定制时间和定制成本均小于设定参数时,采用生产库存序列库的基因序列制备定制载体。根据本发明实施例的载体定制方法,可以获得最优的载体定制成本和周期。
  • 基于深度学习和迁移学习的引导编辑效率预测方法与系统-202211660219.5
  • 舒文杰;刘峰 - 中国人民解放军军事科学院军事医学研究院
  • 2022-12-23 - 2023-03-28 - G16B30/20
  • 本发明涉及基于深度学习和迁移学习的引导编辑效率预测方法和系统,所述方法包括:分别提取Spacer序列、PBS序列和RTT序列的K‑mer序列;将每个K‑mer序列的隐向量与每个K‑mer序列的注意权值加权求和,得到Spacer序列对应的序列描述向量、PBS序列对应的序列描述向量、RTT序列对应的序列描述向量;将Spacer序列、PBS序列、RTT序列对应的序列描述向量串联起来,形成pegRNA的描述向量;利用多层全连接前馈网络对pegRNA的描述向量进行非线性变换后输入引导编辑效率预测系统,引导编辑效率预测系统输出预测pegRNA的描述向量编辑效率。本发明训练得到的人工智能模型可以无偏、准确地预测任意编辑的效率,并且对结果有一定解释性,从无数种可能的结构中快速、准确得到最优设计使得编辑效率最高。
  • 评估基因组组装完整度方法及装置-202210423265.7
  • 吕云云;李燕平;文正勇;贺扬;王均 - 内江师范学院
  • 2022-04-21 - 2023-03-21 - G16B30/20
  • 本发明公开了一种评估基因组组装完整度方法及装置,根据测序报告确定测序reads的长度和测序错误率;在基因组序列中的随机位置上产生模拟reads;根据测序错误率在模拟产生的reads上进行错误性碱基替换;对实际和模拟产生的reads逐个碱基进行一定长度短片段kmer的抽取,并比较其反向互补配对序列,取在字母表排列在前的kmer作为序列标识;根据不同标识kmer的出现频次分布,计算所有kmer的频次深度分布;根据模拟测序数据产生的kmer频次深度分布与实际测序数据产生的kmer频次深度分布来评估基因组组装完整度。本发明整体设计不依赖于其他数据库,采用简单可行的手段对基因组进行科学合理的完整性评估。
  • 多倍体基因组同源染色体的拆分方法、装置及其应用-202011174363.9
  • 李本萍;王璐;王迪;周勋;陶琳娜 - 天津诺禾致源生物信息科技有限公司
  • 2020-10-28 - 2023-02-24 - G16B30/20
  • 本发明提供了一种多倍体基因组同源染色体的拆分方法、装置及其应用。其中拆分方法包括:根据HiC数据与多倍体基因组序列比对得到的比对文件,计算基因组重叠群间的互作强度和重叠群内的互作强度;根据各重叠群内的互作强度对连接错误的重叠群进行打断;利用打断后的重叠群进行相互比对,得到重叠群间的相似度;根据重叠群间的互作强度和重叠群间的相似度对所有重叠群进行聚类,实现对多倍体基因组同源染色体的拆分。先通过利用重叠群内的互作强度识别错误连接的重叠群,并在错误的地方进行打断。再通过识别重叠群间的相似性,利用重叠群间的互作强度和相似度高低进行聚类,从而能够有效的将同源染色体进行拆分。
  • 基因组组装方法、装置、设备及存储介质-202210311761.3
  • 王莹;卢宇彤;陈志广 - 中山大学
  • 2022-03-28 - 2023-01-24 - G16B30/20
  • 本申请公开了一种基因组组装方法、装置、设备及存储介质,包括:获取基因短序列,以及确定第一分割值;基于所述第一分割值,将所述基因短序列进行分割,得到各基因子序列;基于预设分组并行正则采样排序算法,对各所述基因子序列进行全局排序,得到各排序基因子序列;基于各所述排序基因子序列,构建分布式基因图;并行遍历所述分布式基因图,得到各连续基因序列,并对各所述连续基因序列进行填充组装,得到各目标连续基因序列;确定第二分割值,若所述第二分割值大于预设最大分割阈值,则将各所述目标连续基因序列进行组装,得到基因组组装结果。本申请解决了基因组组装计算复杂度高导致组装效率低的技术问题。
  • 基于数值特征表达的基因组二四代融合组装方法及系统-202211336402.X
  • 李国良;张也;陆嘉华;彭德华;陈建邦;江熠;陈星霖;唐善雯;张芷硕;吴蕾 - 天津大学四川创新研究院
  • 2022-10-28 - 2022-12-27 - G16B30/20
  • 本发明公开了基于数值特征表达的基因组二四代融合组装方法及系统,该方法包括如下步骤:S1:读入测序文件,进行基因解析获得测序序列reads的自定义编号和碱基序列;S2:截取测序序列reads的碱基序列,获得质心特征值,并生成二代测序数据特征值矩阵和四代测序数据特征值矩阵;S3:按照设定误差阈值A搜索四代测序数据之间相似特征值对应的序列,将四代测序数据组装为基因序列骨架;S4:按照设定误差阈值B搜索二代测序数据和四代测序数据相似特征值对应的序列,将二代测序数据回帖至基因序列骨架;S5:输出最终组装结果和SNP信息表。本发明可提高涉及二四代组装和有参映射组装分析的生物信息学分析流程的速度。
  • 基因组叠阵、基因组架构、基因组序列组装方法及系统-202110620095.7
  • 曹晟昊;李梦甜;李雷 - 中国科学院数学与系统科学研究院
  • 2021-06-03 - 2022-12-06 - G16B30/20
  • 本发明提供一种基因组叠阵组装方法及系统、一种基因组架构组装方法及系统以及一种基因组序列组装方法及系统,属于生物信息技术领域。本发明通过稳健回归技术优化一个全局损失函数来确定测序序列之间的叠落关系,消除假阳性比对的干扰,从而得到更准确的组装叠阵集,避免组装基因组上拷贝数的缺失或者错误拼接;基于回归矩阵计算进行叠阵排列的估计,对异常值的容忍度更高,除非歧义的样本信息数量多于真实样本的数量,不会出现“崩溃”的情形;通过重抽样技术对测序数据进行多次独立地采样、组装、改进、评估,然后整合成最终的组装基因组,可以减少由测序数据中的噪音给组装结果带来的不确定性,降低组装结果对组装参数选择的敏感性。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top