[发明专利]使用机器学习和相关系统和方法进行蛋白质识别的技术在审
申请号: | 202080057353.9 | 申请日: | 2020-06-12 |
公开(公告)号: | CN115989545A | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 迈克尔·迈耶;布莱恩·瑞德;张智卓;萨布丽娜·拉希德;布拉德利·罗伯特·帕里 | 申请(专利权)人: | 宽腾矽公司 |
主分类号: | G16B30/20 | 分类号: | G16B30/20 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 谭营营;胡彬 |
地址: | 美国康*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本文描述了用于使用由蛋白质测序装置收集的数据来识别多肽的系统和技术。蛋白质测序装置可以收集在试剂与多肽的氨基酸的结合相互作用期间从所检测到的发光标签的光发射获得的数据。光发射可能是由于对发光标签施加激发能量而产生的。该装置可以将数据作为输入提供给经过训练的机器学习模型以获得可用于识别多肽的输出。对于多肽中的多个位置的每一个,输出可以指示一个或多个相应氨基酸存在于该位置的一种或多种可能性。输出可以与指定蛋白质的氨基酸序列进行匹配。 | ||
搜索关键词: | 使用 机器 学习 相关 系统 方法 进行 蛋白质 识别 技术 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宽腾矽公司,未经宽腾矽公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202080057353.9/,转载请声明来源钻瓜专利网。
- 同类专利
- 使用机器学习和相关系统和方法进行蛋白质识别的技术-202080057353.9
- 迈克尔·迈耶;布莱恩·瑞德;张智卓;萨布丽娜·拉希德;布拉德利·罗伯特·帕里 - 宽腾矽公司
- 2020-06-12 - 2023-04-18 - G16B30/20
- 本文描述了用于使用由蛋白质测序装置收集的数据来识别多肽的系统和技术。蛋白质测序装置可以收集在试剂与多肽的氨基酸的结合相互作用期间从所检测到的发光标签的光发射获得的数据。光发射可能是由于对发光标签施加激发能量而产生的。该装置可以将数据作为输入提供给经过训练的机器学习模型以获得可用于识别多肽的输出。对于多肽中的多个位置的每一个,输出可以指示一个或多个相应氨基酸存在于该位置的一种或多种可能性。输出可以与指定蛋白质的氨基酸序列进行匹配。
- 具有情境感知的基于人工智能的碱基检出器-202280005054.X
- A·起亚 - 因美纳有限公司
- 2022-03-24 - 2023-03-14 - G16B30/20
- 一种神经网络在逐块的基础上处理测序图像以用于碱基检出。这些测序图像描绘一组分析物的强度发射。这些块描绘这些分析物的子集的强度发射,并且由于碱基多样性有限而具有单一的强度图案。该神经网络具有卷积滤波器,这些卷积滤波器具有局限于这些块的接收域。这些卷积滤波器检测这些块中的强度图案,由于这些单一的强度图案和局限的接收域而具有检测损失。强度情境化单元基于这些图像中的强度值确定强度上下文数据。该数据流逻辑将该强度上下文数据附加到这些测序图像以生成强度情境化图像。该神经网络将这些卷积滤波器应用于这些强度情境化图像并且生成碱基检出分类。这些强度情境化图像中的强度上下文数据补偿该检测损失。
- 用于数字数据存储的生物兼容核酸-202080084301.0
- 斯特凡·勒迈尔;皮埃尔·克罗泽;许舟;亚历山大·梅斯;珍妮·勒佩耶 - 法国国家科学研究中心;索邦大学
- 2020-10-01 - 2022-11-22 - G16B30/20
- 本发明涉及一种用于存储和/或编辑数字数据的装置,该装置包含至少一个双链的、复制型、复合的核酸分子。所述复合的核酸分子包括编码数字数据的核酸和非编码数字数据的核酸。非编码数字数据的核酸允许对侧端编码数字数据的核酸进行索引和/或提供元数据。根据本发明的复合的核酸分子可以被汇集以构成阵列并且阵列可以构成DNA驱动,DNA驱动表示其上存储数字数据的物理支持物。
- 基于人工智能的索引序列的碱基检出-202180015471.8
- K·贾加纳坦;A·起亚 - 因美纳有限公司
- 2021-02-16 - 2022-10-18 - G16B30/20
- 所公开的技术涉及基于人工智能的索引序列的碱基检出。所公开的技术在测序运行的索引测序循环期间访问针对索引序列生成的索引图像。这些索引图像描绘了由于在测序运行期间核苷酸结合在索引序列中而生成的强度发射。所公开的技术基于(i)来自一个或多个先前索引测序循环的索引图像的强度值,(ii)来自一个或多个后续索引测序循环的索引图像的强度值,和(iii)来自当前索引测序循环的索引图像的强度值,对来自当前索引测序循环的索引图像进行归一化。所公开的技术通过基于神经网络的碱基检出器处理索引图像的归一化版本,并针对索引测序循环中的每个索引测序循环生成碱基检出,从而产生索引序列的索引读段。
- 基于新上下文的经比对的测序数据中的改进质量值压缩框架-202180013026.8
- S·尚达科;张贻谦 - 皇家飞利浦有限公司
- 2021-01-27 - 2022-09-20 - G16B30/20
- 一种用于压缩信息的方法,包括:访问基因组测序数据的读段;将所述读段与参考进行比对;基于所述读段的比对来生成比对数据;基于所述比对数据来获得一组上下文;并且基于所述一组上下文来压缩与所述比对数据相对应的质量值。所述比对数据可以提供对所述基因组测序数据的错误的指示,并且所述质量值中的每个可以提供对所述基因组测序数据中的一个或多个碱基处的错误的概率的指示。
- 用于多重化并行测序的索引序列-202080085126.7
- M·摩尔达施尔;A·图尔克;T·睿达;M·V·施勒佩尔 - 莱克斯奥根有限公司
- 2020-12-09 - 2022-08-02 - G16B30/20
- 本发明涉及包括索引序列的寡核苷酸的组,且其中该组包括具有不同索引序列的多个寡核苷酸子组,其中,寡核苷酸子组的索引序列至少彼此相差非零数量的序列变化;并且其中,所述组包括子组的至少2个分层的层,其中较高层子组的索引序列是较低层子组的成员,并且其中较低层子组的索引序列与较高层子组的索引序列相比,彼此之间相差较小的最小数量序列变化,并且其中寡核苷酸被分配给一个或多个子组。本发明还涉及生成和使用这样的组的方法。
- 单一生物单元的序列信息的新型处理方法-202080046760.X
- 有川浩司;细川正人;竹山春子;小川雅人;井手圭吾 - 比特拜欧姆株式会社
- 2020-04-24 - 2022-03-25 - G16B30/20
- 本发明提供微生物基因组数据的自动构建和提供系统。一种处理单一生物单元的序列信息的方法,该方法包括如下步骤:(A)对多个单一(single)生物单元(例如,细胞)的基因组(或同等的基因集合)的部分序列信息(在玻片(slide)中的SAG),基于生物谱系鉴定用序列(162SrRNA或标记基因),按照每个同一谱系进行聚类化;以及(B)根据需要而与数据库中的该单一生物单元的基因组的信息进行核对。
- 使用均聚物折叠测序读段改进对齐-202080030040.4
- R·格罗思 - 加利福尼亚太平洋生物科学股份有限公司
- 2020-02-19 - 2021-12-07 - G16B30/20
- 本公开提供了用于解析长且高度相似但不相同的基因组区域以提高组装质量,尤其是多倍体基因组的组装质量的方法、组合物和计算机实施的过程等等。本公开的方面涉及使用均聚物折叠序列读段的精确字符串匹配来确定两个序列是否重叠并因此代表相同的基因组区域(例如,多倍体基因组中的相同单倍型)或序列是否代表不同的基因组区域。
- 使用甲基化信息估计细胞来源部分的系统和方法-201980092387.9
- 奥利弗·克劳德·维恩 - 格里尔公司
- 2019-12-18 - 2021-11-16 - G16B30/20
- 本申请公开用于确定一测试对象的一生物样本中的一细胞来源部分的多种系统和方法。多个核酸片段从所述测试对象包含无细胞核酸的一生物样本中获得。对于多个第一核酸片段中的每个核酸片段获得一甲基化状态。每个相应核酸片段被单独分配一第一分数,从而获得多个第一分数。每个相应分数代表对应核酸片段从与所述第一细胞来源相关联的一无细胞核酸分子获得的一似然性。将所述多个第一分数转换为多个第一计数,所述多个第一计数中的每个计数为对于一第一预定甲基化位点集中的一甲基化位点。使用所述多个第一计数估计所述测试对象的一第一细胞来源部分。
- 生物测序-202080017929.9
- D·范海夫特;A·范海夫特;I·布兰兹;E·范海夫特 - 生物线索公司
- 2020-02-07 - 2021-10-19 - G16B30/20
- 在第一方面,本发明涉及一种考虑到包含在指纹数据串的存储库中的信息,对生物聚合物或生物聚合物片段进行测序的方法,所述方法包括:(a)使用测序器获得所述生物聚合物或生物聚合物片段的至少一个读段,和(b)通过以下计算机实现的步骤处理所述读段:(b1)在所述读段中搜索由所述指纹数据串表示的所述特征生物子序列中的一个或多个的出现,和(b2)通过在每次出现时确定与所述特征生物子序列连续的序列单元是否与所述存储库中的所述组合数据一致来验证或拒绝所述读段,以及/或(b1')在所述读段的头部和/或尾部搜索由所述指纹数据串表示的所述特征生物子序列中的一个的出现,和(b2')从所述存储库中的所述组合数据预测所述读段的一个或多个连续序列单元。
- 生物信息处理-202080012591.8
- D·范海夫特;A·范海夫特;I·布兰兹;E·范海夫特 - 生物海滩公司
- 2020-02-07 - 2021-09-28 - G16B30/20
- 在第一方面,本发明涉及一种用于获得关于基于至少一个生物序列的生物实体的信息的计算机实现的方法,其包括:(a)为生物序列数据库提供指纹数据串的存储库,每个指纹数据串表示由序列单元构成的特征生物子序列,每个特征生物子序列在所述生物序列数据库中具有小于其可用的不同序列单元的总数的组合数,生物子序列的所述组合数定义为作为所述生物子序列的连续序列单元出现在所述生物序列数据库中的不同序列单元的数目;(b)确定代表所述生物实体的一个或多个指纹数据串;(c)在包括与所述指纹数据串相关联的信息的存储库中搜索与所述一个或多个代表性指纹数据串相关联的信息;以及(d)处理所述信息。
- 用于Sanger测序的深度碱基识别器-201980082101.9
- 储勇;S·施奈德;R·谢弗;D·吴 - 生命科技股份有限公司
- 2019-12-10 - 2021-07-23 - G16B30/20
- 提供了一种用于Sanger测序的深度碱基识别器系统和相关方法。这些方法使用深度机器学习。使用深度学习模型,基于分析的迹线来确定扫描标签概率。训练神经网络学习最佳映射函数以使连接时序列分类(CTC)损失函数降至最低。CTC函数用于通过匹配目标序列和预测的扫描标签概率来计算损失。解码器生成具有最大概率的序列。使用前缀束搜索的碱基识别测位仪用于遍历CTC标签概率以查找扫描范围,然后针对每个被识别碱基的扫描范围内的峰值标签概率的位置。使用从CTC标签概率计算的特征向量作为QV查找表中的索引来确定质量值(QV),以查找质量分数。
- 用于测序读值的分组和折叠的系统和方法-201980042968.1
- 赵晨;凯文·埃里克·吴;斯文·比尔克 - ILLUMINA公司
- 2019-10-29 - 2021-03-19 - G16B30/20
- 本申请公开了用于折叠测序读值和鉴定相似测序读值的系统和方法。在一个实例中,方法包括从每个核苷酸测序读值的第一标识符序列产生多个第一标识符子序列,并通过对所述多个第一标识符子序列应用哈希处理来产生核苷酸测序读值的第一名签。该方法可以包括基于第一名签将核苷酸测序读值分配到第一数据结构的第一具体箱,并在一个或多个核苷酸测序读值分配的情况下,确定第一数据结构的每个第一具体箱的核苷酸序列。
- 机器学习使能的生物聚合物组装-201980047341.5
- 明·迪克·曹 - 宽腾矽公司
- 2019-05-13 - 2021-03-02 - G16B30/20
- 描述了用于生成高分子的生物聚合物组装的机器学习技术。例如,系统可以使用机器学习技术来生成有机体DNA的基因组组装、有机体DNA的一部分的基因序列或蛋白质的氨基酸序列。所述系统可以访问由测序装置生成的生物聚合物序列和从所述序列生成的组装。所述系统可使用所述序列和所述组装生成机器学习模型的输入。所述系统可将所述输入提供给所述机器学习模型,以获得相应的输出。所述系统可以使用所述相应的输出来标识所述组装中的位置处的生物聚合物。并且随后更新所述组装,以在所述组装中的所述位置处指示所标识的生物聚合物,以获得更新的组装。
- 用于测序装置的机器学习使能脉冲及碱基判定-201980022928.0
- 乔纳森·M·罗斯伯格;迈克尔·梅耶;乌穆特·伊瑟 - 宽腾矽公司
- 2019-01-25 - 2020-11-20 - G16B30/20
- 一种方法,包括:从一个或多个测序装置获得在核苷酸掺入事件期间从与核苷酸相关联的发光标签检测的原始数据;及处理该原始数据以执行由该一个或多个测序装置的学习使能的自动碱基判定模块产生的碱基判定和与该原始数据相关联的实际值的比较,其中该等碱基判定从该原始数据标识一个或多个个体核苷酸。基于该比较,使用至少一些所获得原始数据形成该学习使能的自动碱基判定模块的更新,且使该更新可用于该一个或多个测序装置。
- 专利分类