[发明专利]通过应用参考基因组的分层结构使诧异数据最小的方法和系统有效

专利信息
申请号: 201380026006.X 申请日: 2013-05-15
公开(公告)号: CN104335213B 公开(公告)日: 2017-04-26
发明(设计)人: J.克雷默;R.弗里德兰德 申请(专利权)人: 国际商业机器公司
主分类号: G06F19/22 分类号: G06F19/22
代理公司: 北京市柳沈律师事务所11105 代理人: 周少杰,张贵东
地址: 美国纽*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种使诧异数据最小的方法、计算机程序产品、和计算机系统包含在源头上,计算机读取和识别生物体的基因序列的特性;接收生物体的基因序列的至少两种所识别特性的等级的输入;根据生物体的基因序列的至少两种所识别特性的等级生成分级的所识别特性的分层结构;将分级的所识别特性的分层结构与参考基因组的中心库相比较;以及如果来自中心库的至少一个参考基因组与分级的所识别特性的分层结构匹配,则将生物体的基因序列的核苷酸与来自至少一个匹配参考基因组的核苷酸相比较,以获取差异和创建诧异数据。
搜索关键词: 通过 应用 参考 基因组 分层 结构 诧异 数据 最小
【主权项】:
一种使诧异数据最小的方法,该方法包含如下步骤:a)在源头上,计算机读取和识别生物体的基因序列的特性;b)该计算机接收生物体的基因序列的至少两种所识别特性的等级的输入,该等级提供所识别特定特性的相对值、权重或重要性;c)该计算机根据生物体的基因序列的至少两种所识别特性的等级生成分级的所识别特性的分层结构;d)该计算机将分级的所识别特性的分层结构与参考基因组的中心库相比较;以及e)如果来自中心库的至少一个参考基因组与分级的所识别特性的分层结构匹配,则i)该计算机将至少一个匹配参考基因组存储在中心库中;ii)该计算机将生物体的基因序列的核苷酸与来自至少一个匹配参考基因组的核苷酸相比较,以找出生物体的基因序列的核苷酸与来自至少一个匹配参考基因组的核苷酸不同的差异;以及iii)该计算机使用该差异创建诧异数据并将该诧异数据存储在中心库中,该诧异数据包含参考基因组内该差异的开始地点、和与参考基因组的核苷酸不同的来自生物体的基因序列的核苷酸;如果来自中心库的另一个参考基因组与分级的所识别特性的分层结构匹配,则重复步骤(e)(i)、(e)(ii)、和(e)(iii)。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201380026006.X/,转载请声明来源钻瓜专利网。

同类专利
  • 用于分析核酸的系统和方法-201780010411.0
  • F·M·德拉维加 - 托马生物科学公司
  • 2017-02-09 - 2018-11-23 - G06F19/22
  • 本发明提供了用于对来自个体的样本的测序数据进行计算分析的系统、软件介质、网络、试剂盒和方法。分析可以提取种系和体细胞信息并比较两种类型的信息,以基于概率建模和统计推断来识别序列变体。分析可以包括区分种系变体(例如,私有变体(private variant))和体细胞突变。识别的变体可供临床使用以提供更好的医疗保健。
  • 转录本确定方法-201480039309.X
  • 安德烈亚斯·蒂尔克 - 莱克斯奥根有限公司
  • 2014-07-04 - 2018-10-26 - G06F19/22
  • 本发明涉及一种估计转录本丰度的方法,所述方法包括以下步骤:a)从所关心的遗传基因座的转录本的潜在混合物中获取转录本片段测序数据;b)将所述片段测序数据分配给所关心的基因座的遗传基因坐标,从而获得片段遗传基因坐标覆盖的数据集,各遗传基因坐标的覆盖相结合形成覆盖包络曲线;c)设置所述混合物的转录本的数量;d)为每个转录本i预先设置建模的基因覆盖的概率分布函数,i代表转录本的数值标识,其中所述概率分布函数由所述转录本i的权重因子αi与至少2个概率子函数j之和的数学乘积构成,j代表概率子函数的数值标识,每个概率子函数j用权重因子βi,j独立地加权;e)将每个转录本的概率分布函数相加,获得和函数;f)使所述和函数拟合到所述覆盖包络曲线,从而优化αi与βi,j的值来提高拟合;g)重复步骤e)和f),直到预先设置的收敛判据已经得到满足,从而获得所述混合物的每个转录本的估计转录本丰度,所述的估计转录本丰度用在收敛判据已经得到满足之后经优化的权重因子αi表示。
  • DNA序列的快速并且安全的检索方法、装置及存储介质-201480029612.1
  • T·伊格纳坚科 - 皇家飞利浦有限公司
  • 2014-04-30 - 2018-10-19 - G06F19/22
  • 从序列索引检索序列模型。所述序列模型对被存储在数据库中的DNA或RNA序列进行建模,并且每个均包括有限内存树源模型和针对所述有限内存树源模型的参数。基于所检索的序列模型到查询DNA或RNA序列的拟合,来将被存储在所述数据库中的一个或多个DNA或RNA序列识别为最相似于所述查询DNA或RNA序列。所述序列模型可以为上下文树加权(CTW)模型其中,Sx指代针对被存储在所述数据库中的所述DNA或RNA序列x的所述上下文树模型,并且指代所述上下文树模型Sx的参数。针对每个CTW模型所述拟合能够包括使用所述CTW模型来计算针对所述查询DNA或RNA序列y的代码字长度。
  • 序列数据分析装置、DNA分析系统以及序列数据分析方法-201580014840.6
  • 木村宏一 - 株式会社日立高新技术
  • 2015-03-12 - 2018-09-11 - G06F19/22
  • 序列数据分析装置(1)具有:读取字典生成部(21),其基于利用结合字符连接作为从样本DNA片段的两端分别定序的对的左方序列(11a)和右方序列(11b)之间而得的结合字符串,生成读取序列字典(14);样本重构部(25),其提取位于读取序列字典(14)内的查询序列(16)的命中位置(17a)周围的直至出现结束字符为止的字符串,作为样本序列(17),并提取样本序列(17)内不存在命中位置(17a)一侧的直至出现结束字符为止的左方序列(11a)或者右方序列(11b),作为配对序列(17b)。
  • 利用癌症患者的基因组碱基序列突变信息和生存信息的定制型药物选择方法及系统-201680062975.4
  • 金周汉 - 塞弗欧米公司
  • 2016-10-26 - 2018-08-31 - G06F19/22
  • 本发明涉及利用癌症基因组碱基序列突变和患者生存信息的定制型药物选择方法及系统,更具体地涉及利用癌症基因组碱基序列突变中的合成癌生存(Synthetic Cancer Survival)基因的突变信息的定制型抗癌治疗药物选择方法及系统。本发明的利用癌症基因组突变和患者生存信息或者癌细胞或组织侵袭或转移能力评估的定制型抗癌治疗方法及系统为可通过分析从癌症基因组碱基序列突变和癌生存及转移信息导出的合成癌生存基因对的突变的可有效选择个别性抗癌治疗效果及预后良好的抗癌治疗药物的技术,可信度高,并可迅速简单地提供相关信息。
  • 新生抗原分析-201680050906.1
  • V·瓦库雷斯库;T·张;J·R·怀特;L·迪亚斯 - 个人基因组诊断公司
  • 2016-07-14 - 2018-07-31 - G06F19/22
  • 癌症免疫学为癌症治疗提供了有希望的新途径,但是验证待针对为靶标的潜在的新生抗原是成本高的且昂贵的。分析MHC结合亲和力、抗原加工、与已知抗原的相似性、预测的表达水平(作为mRNA或蛋白质)、自相似性和突变体等位基因频率,提供了使用测序数据鉴定并优先化候选新生抗原的筛选方法。本发明的方法通过鉴定优先候选新生抗原以用于进一步的实验验证从而节省时间和金钱。
  • 一种基因分析方法及装置-201280060150.0
  • S·库马尔;R·辛格;B·查克拉巴蒂;S·库马尔 - 皇家飞利浦有限公司
  • 2012-12-03 - 2018-06-26 - G06F19/22
  • 一种非暂态存储介质存储包括比对测序读数的组装基因序列。一种电子处理设备配置为执行包括以下的操作:识别组装基因序列中的可能的变异;计算针对组装基因序列的读数的至少一个读数属性的值;以及,以包含可能的变异的组装基因序列的测序读数的至少一个读数属性的计算值满足接受标准的条件下调入可能的变异。所述电子处理设备还可以被配置为基于非随机选择标准选择组装基因序列的至少一个区域进行验证。
  • 用于压缩基因组数据的方法-201680042184.5
  • M·曼德龙;J·福格斯;J·奥斯特曼 - 汉诺威戈特弗里德威廉莱布尼茨大学
  • 2016-06-16 - 2018-03-27 - G06F19/22
  • 本发明涉及一种用于压缩基因组数据的方法,其中基因组数据被存储在包含由基因组测序方法构建的至少多个读段的至少一个数据文件中,其中每个读段包括映射位置、CIGAR字符串和实际测序的核苷酸序列作为供体基因组的局部部分,该方法包括步骤;‑通过使用当前读段的映射位置和CIGAR字符串来展开数据文件之一的当前读段的核苷酸序列,其中当前读段具有至少一个先前读段;‑计算所述当前读段的展开的核苷酸序列与至少一个先前读段的展开的核苷酸序列之间的差值,其中差值包含映射位置的差值和核苷酸序列的差值;‑将计算出的差值传递给熵编码器以压缩所述差值;‑通过所压缩的差值对当前读段编码,以及‑将当前读段作为先前读段之一并且将下一个读段作为新的当前读段重复上述步骤,直到不再有下一个读段可用为止。
  • 生物信息学数据处理系统-201680028692.8
  • D·韦尔佐托;N·纳加拉贾 - 新加坡科技研究局
  • 2016-03-16 - 2018-01-02 - G06F19/22
  • 公开了一种确定第一图谱的至少一部分与第二图谱或多个第二图谱的至少一部分的至少一个最优比对的计算机实现的方法,其中,图谱是物理基因组图谱和/或限制性图谱。该方法包括接收指示第一图谱的特征之间的距离的第一有序列表的第一图谱数据,接收指示一个或多个第二图谱的特征之间的距离的第二有序列表的第二图谱数据;从第二图谱数据生成指示种子的种子数据,每个种子包括第二有序列表中的距离中的至少一个距离,其中,特征指示限制性位点并且距离是片段大小。所述方法进一步包括通过搜索第一有序列表的至少一部分以找到相应种子的至少近似匹配来从种子数据生成多个候选比对,并通过动态编程来扩展该近似匹配;确定相应候选比对的相应比对分数;以及基于比对分数,选择候选比对中的一个或多个候选比对作为一个或多个最优比对。
  • 非侵入性产前倍性识别装置-201180069972.0
  • M·罗比诺威特茨;G·杰梅罗斯;M·班杰维齐;A·瑞安;Z·德姆科;M·希尔;B·齐默曼;J·班尼 - 纳特拉公司
  • 2011-11-18 - 2017-12-08 - G06F19/22
  • 本发明提供了用于由从含有来自胎儿的母亲和来自胎儿的DNA的DNA的混合样本测得的基因型数据,以及任选的由母亲和父亲的基因型数据来确定妊娠中的胎儿的染色体的倍性状态的方法。所述倍性状态是通过使用联合分布模型创建不同可能的胎儿倍性状态的给定亲本基因型的数据多个预期的等位基因分布,并将预期的等位基因分布与混合样本中所测得的测量等位基因分布方式进行比较,选择预期的等位基因分布模式与所观测的等位基因分布模式最为相当的倍性状态来确定。DNA的混合样本可以以最小化等位基因偏差的方式在多个多态性位点进行优先富集,例如使用大量多重定向PCR。
  • 一种拷贝数变异检测方法和系统-201280066929.3
  • 李旭超;陈盛培;陈芳;谢伟伟;汪建;王俊;杨焕明;张秀清 - 深圳华大基因股份有限公司
  • 2012-04-05 - 2017-11-21 - G06F19/22
  • 本发明公开一种基因组拷贝数变异检测方法和系统,涉及生物信息学技术领域。该方法包括获得读序;根据读序确定序列标签;统计落入各个窗口的序列标签数目;对各个窗口的序列标签数目进行GC校正并根据以对照样本集修正的期望序列标签数目进行修正获得调整后的序列标签数目;选取显著性值较小的分界点为候选的CNV断点;每次剔除最不显著的候选CNV断点并更新被剔除的候选CNV断点左右两个候选CNV断点的差异显著性值,循环迭代,直至所有候选CNV断点的差异显著性值都小于终止阈值,从而确定CNV断点。本发明的方法和系统,具有临床可行性,在使用50M左右的数据情况下,可精确检测到0.5M的微缺失/微重复区域。
  • 通过应用参考基因组的分层结构使诧异数据最小的方法和系统-201380026006.X
  • J.克雷默;R.弗里德兰德 - 国际商业机器公司
  • 2013-05-15 - 2017-04-26 - G06F19/22
  • 一种使诧异数据最小的方法、计算机程序产品、和计算机系统包含在源头上,计算机读取和识别生物体的基因序列的特性;接收生物体的基因序列的至少两种所识别特性的等级的输入;根据生物体的基因序列的至少两种所识别特性的等级生成分级的所识别特性的分层结构;将分级的所识别特性的分层结构与参考基因组的中心库相比较;以及如果来自中心库的至少一个参考基因组与分级的所识别特性的分层结构匹配,则将生物体的基因序列的核苷酸与来自至少一个匹配参考基因组的核苷酸相比较,以获取差异和创建诧异数据。
  • 识别被测序基因组中的重排-201180059581.0
  • I.纳扎伦科;A.L.哈尔珀恩;P.卡恩瓦力 - 考利达基因组股份有限公司
  • 2011-10-11 - 2016-11-02 - G06F19/22
  • 本发明提供了参照人类基因组参考序列识别被测序基因组的结点(例如,由大规模重排引起)的方法、装置和系统。例如,可以将假阳性与实际结点区分开。这样的假阳性可能由许多原因引起,包括错误映射、样本的DNA分子之间的嵌合反应、和参考基因组带来的问题。作为过滤处理的一部分,可以提供结点的碱基对分辨率(或近碱基对分辨率)。在各种实现中,可以使用失调末端配对和/或将片段的长度分布的统计分析用于样本基因组的局部区域来识别结点。还可以识别在识别临床上有意义的结点,以便可以把进一步的分析集中在对病人的健康可能有更大影响的基因组区域上。
  • 用于局部序列比对的方法和系统-201480025707.6
  • C·科勒;Z·张 - 生命科技股份有限公司
  • 2014-03-12 - 2016-03-16 - G06F19/22
  • 一种核酸测序的方法包括:(a)将多个模板多核苷酸链安置在于传感器阵列上安置的多个限定空间中,所述模板多核苷酸链中的至少一些具有测序引物和与所述引物可操作地结合的聚合酶;(b)使具有所述测序引物和与所述引物可操作地结合的聚合酶的所述模板多核苷酸链暴露于根据预定排序流动的一系列核苷酸物质流;(c)基于所述核苷酸物质流测定所述限定空间中的多个所述模板多核苷酸链的序列信息以产生对应于所述模板多核苷酸链的多个测序读数;以及(d)使用包含基于序列的生物变化的第一组比对准则或罚分和基于测序错误模式的第二组比对准则或罚分的比对方法比对所述多个测序读数。
  • 并行局部序列对齐-201380066248.1
  • M·穆苏瓦蒂;T·米可维茨 - 微软技术许可有限责任公司
  • 2013-12-17 - 2015-11-11 - G06F19/22
  • 此处描述的各种技术关于将查询序列与数据库序列对齐的并行局部序列对齐。数据库序列被分段成多个带。第一处理单元可以基于一成本函数为数据库序列的第一带跨查询序列计算Smith-Waterman值,该成本函数对序列间的生物相似性建模。此外,第二处理单元可以基于该成本函数为数据库序列的第二带跨该查询序列计算Smith-Waterman值。而且,数据库序列的第二带跨该查询序列的Smith-Waterman值的子集可以基于该成本函数来重新计算(例如,由第一处理单元或第二处理单元)。要被重新计算的Smith-Waterman值的子集可以基于查询序列长度和成本函数来确定。
  • 靶向的测序读取值的准确且快速的定位-201380062074.1
  • X.陈;Y.李;W-M.刘;X.(M.).马;S-J.张 - 霍夫曼-拉罗奇有限公司
  • 2013-11-27 - 2015-09-23 - G06F19/22
  • 可以提供从靶向的测序程序获得的测序读取值的准确且快速的定位。一旦选择目标区域,则可以鉴定与目标区域足够类似的基因组的替代区域。如果测序读取值比替代区域更类似于目标区域,则可以确定读取值与目标区域序列匹配。然后可以分析与目标区域比对的读取值以确定目标区域中是否存在突变。因此,可以将测序读取值与目标区域和相应的替代区域(而不是与整个基因组)比较,由此提供计算效率。
  • 采用评分技术的用于工程化核酸构建体的系统和方法-201280067178.7
  • D·M·普拉特;M·W·比斯尔;S·S·钱德拉;B·L·霍索恩;C·多兰;J·E·迪安 - 阿迈瑞斯公司
  • 2012-11-16 - 2015-05-06 - G06F19/22
  • 提供了用于定义用于整合于生物体的位点L处的核酸构建体的系统和方法。接收核酸请求,每个这样的请求规定对L的遗传变化,并且扩展成组件多核苷酸。在一些实施方案中,将这些组件多核苷酸排列成不同的排列{AR1,…,ARm},在{AR1,…,ARm}中的每个排列ARi定义该组件多核苷酸的不同排列。在一些实施方案中,基于编码ARi的一部分的源构建体是否物理地存在为{AR1,…,ARm}中的每个ARi的确定评分Si。在一些实施方案中,基于ARf的该评分在{AR1,…,ARm}中选择ARf。在一些实施方案中,计算引物对以扩增不在这些源构建体中体现的ARf的部分。在一些实施方案中,由这些引物对扩增的ARf的这些部分和在这些源构建体中的ARf的这些部分按照由ARf规定的顺序限定该核酸构建体。
  • 用于产生和使用最佳核苷酸流顺序的系统和方法-201380025917.0
  • 陈怡儒;C.T.A.黄 - 霍夫曼-拉罗奇有限公司
  • 2013-05-16 - 2015-02-18 - G06F19/22
  • 描述了用于产生尽可能降低序列数据中相位同步误差的累积的流顺序的方法的实施方案,其包括以下步骤: (a)产生包含k碱基长度的核苷酸种类的多个序列排序,其中所述序列排序定义将核苷酸种类引入边合成边测序反应环境的序列;(b)使用所述序列排序模拟从一个或更多个参考基因组获取序列数据,其中所述序列数据包含相位同步误差的累积;和(c)使用读取长度参数和延伸率参数选择所述序列排序中的一个或更多个。
  • 稳定的配对E值-201380014871.2
  • R·A·赫尔曼;P·桑 - 陶氏益农公司
  • 2013-01-17 - 2014-11-26 - G06F19/22
  • 本发明涉及用于获得稳定并且不依赖蛋白或核酸序列数据库大小的生物信息学配对E值的系统和方法。提供了示例性实施方案,为多蛋白数据中含有的每一个蛋白限定至少一个数据库,并在查询(query)蛋白与每一个单蛋白数据库中的每一个蛋白质之间生成E值,从而为每一个查询-数据库蛋白比较提供一个稳定的配对E值。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top