[发明专利]使用合成添加训练样品进行癌症分类在审
申请号: | 202180026777.3 | 申请日: | 2021-03-29 |
公开(公告)号: | CN115461472A | 公开(公告)日: | 2022-12-09 |
发明(设计)人: | M·赛勒斯·马厄;萨缪尔·S·格罗斯;约书亚·纽曼;约格·布登诺;奥格尼恩·尼科利奇 | 申请(专利权)人: | 格里尔公司 |
主分类号: | C12Q1/6869 | 分类号: | C12Q1/6869;G16B20/20;G16B30/00;C12Q1/6886 |
代理公司: | 深圳紫藤知识产权代理有限公司 44570 | 代理人: | 吕姝娟 |
地址: | 美国加*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 合成 添加 训练 样品 进行 癌症 分类 | ||
1.一种训练用于检测癌症的模型的方法,其特征在于,所述方法包含:
接收多个训练样品的定序数据,每个训练样品被标记为癌症及非癌症中的一个,并且每个训练样品包括多个异常cfDNA片段;
对被标记为癌症的一第一训练样品以及被标记为非癌症的一第二训练样品进行抽样;
通过对来自所述第一训练样品的多个异常cfDNA片段的一第一子集以及来自所述第二训练样品的多个异常cfDNA片段的一第二子集进行抽样,来生成一第一合成训练样品,所述第一合成训练样品被标记为癌症;
基于每个训练样品的所述多个异常cfDNA片段来为包括所述第一合成训练样品的所述多个训练样品中的每一个生成一特征向量;以及
使用多个所述特征向量以及包括所述第一合成训练样品的所述多个训练样品的多个所述标记来训练所述模型,所述模型配置为基于一测试样品的定序数据生成所述测试样品的一癌症预测。
2.如权利要求1所述的方法,其特征在于:生成所述第一合成训练样品包括:对于多个基因组区域的每个基因组区域,以一第一抽样概率从与所述基因组区域重叠的所述第一训练样品中抽样多个异常cfDNA片段,并且以与所述第一抽样概率互补的一第二抽样概率从与所述基因组区域重叠的所述第二训练样品中抽样多个异常cfDNA片段。
3.如权利要求2所述的方法,其特征在于:所述第一抽样概率以及所述第二抽样概率是根据所述训练模型的检测的一限度来进行设置的。
4.如权利要求1所述的方法,其特征在于:所述方法还包含:
对被标记为非癌症的一第三训练样品进行抽样;以及
通过对来自所述第一训练样品的多个异常cfDNA片段的一第三子集以及来自所述第三训练样品的多个异常cfDNA片段的一第四子集进行抽样,来生成一第二合成训练样品,其中所述第三子集不同于所述第一子集,所述第二合成训练样品被标记为癌症;以及
基于所述第二合成训练样品的所述多个异常cfDNA片段为所述第二合成训练样品生成一第二特征向量,
其中使用所述第二特征向量以及多个所述第二合成训练样品的所述标记来进一步训练所述模型。
5.如权利要求1所述的方法,其特征在于:所述方法还包含:
对被标记为癌症的一第三训练样品以及被标记为非癌症的一第四训练样品进行抽样;
通过对来自所述第三训练样品的多个异常cfDNA片段的一第三子集以及来自所述第四训练样品的多个异常cfDNA片段的一第四子集进行抽样,来生成一第二合成训练样品,所述第二合成训练样品被标记为癌症;以及
基于所述第二合成训练样品的所述多个异常cfDNA片段为所述第二合成训练样品生成一第二特征向量,
其中使用所述第二特征向量以及多个所述第二合成训练样品的所述标记来进一步训练所述模型。
6.如权利要求5所述的方法,其特征在于:所述第一训练样品以及所述第一合成训练样品具有一第一癌症类型的一标记,并且所述第三训练样品以及所述第二合成训练样品具有一第二癌症类型的一标记。
7.如权利要求1所述的方法,其特征在于:一特征向量的每个特征对应于多个CpG位点中的一CpG位点,并且为所述多个训练样品中的每一个生成一特征向量包括:
对于每个异常cfDNA片段,通过将一概率模型应用于在所述异常cfDNA片段的多个CpG位点处的多个甲基化状态,来确定所述异常cfDNA片段源自一癌症生物样品的一似然;以及
根据与所述特征对应的所述CpG位点重叠并且具有高于一阈值似然的一似然的多个异常cfDNA片段的一计数,来确定所述特征向量的每个特征。
8.如权利要求7所述的方法,其特征在于:每个特征向量根据所述训练样品的一定序深度进行归一化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于格里尔公司,未经格里尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202180026777.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于切片和针状骨去除的装置和方法
- 下一篇:复合材料、散热器及半导体装置