[发明专利]用于同时多变量特征选择、特征生成和样本聚类的方法在审
| 申请号: | 201880072504.0 | 申请日: | 2018-10-23 |
| 公开(公告)号: | CN111316366A | 公开(公告)日: | 2020-06-19 |
| 发明(设计)人: | K·沃良斯基;N·迪米特罗娃 | 申请(专利权)人: | 皇家飞利浦有限公司 |
| 主分类号: | G16B40/30 | 分类号: | G16B40/30;G16B40/00;G16B40/20;G16B50/00 |
| 代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 孟杰雄 |
| 地址: | 荷兰艾*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 同时 多变 特征 选择 生成 样本 方法 | ||
一种基因组/蛋白质组测试综合方法包括:接收包括对应于人的样本的基因组/蛋白质组数据集(12),其中,每个样本包括根据针对对应的人的基因组/蛋白质组数据导出的一组特征中的特征的值。针对每个特征,执行单变量分析(30)以生成针对所述特征的样本密度对特征值数据集,其例如被表示为核密度估计(KDE)(52)。使用KDE在所述特征上执行多变量分析(32、34)以生成一组鉴别性特征(36、38)。在一个范例中,多变量分析(32)使用KDE的能量谱密度(ESD)特性。在另一范例中,多变量分析(34)使用KDE的峰值位置特性。
技术领域
以下总体上涉及临床测试领域、基因组测试领域、蛋白质组测试领域和相关领域。
背景技术
基因组和蛋白质组测试日益应用为用于诊断和分型癌症、确定致病菌株和其他临床任务的工具。这些技术能够产生大数量的数据。
基因组测试可以采用下一代测序(NGS)采集全基因组序列(WGS)、全外显子组序列(WES,包括仅蛋白质编码外显子)、RNA序列等。在典型的NGS工作流程中,来自癌性肿瘤或者其他感兴趣组织的组织样本经由活检或其他介入流程得出。湿实验室处理被用于从样本提取、净化或以其他方式制备脱氧核糖核酸(DNA),之后是目标浓缩(例如用于WES)、聚合酶链反应(PCR)放大和/或其他样本处理。制备样本被加载到生成可以例如被存储为FASTQ数据文件的未对准的DNA序列片段读取(DNA片段的碱基序列的数据表示)的NGS基因测序仪。未对准的读取使用适合的数据处理(诸如Burrows-Wheeler Alignment(BWA)工具,之后是SAMtool)以对准较长序列来与参考DNA序列对准。对准的DNA序列(例如WGS或WES序列)被存储为序列对准/映射(SAM)或二进制对准映射(MAM)或类似类型文件。变异调用软件可以应用于识别基因变异,诸如单核苷酸多态性(SNP)或单核苷酸变异(SNV)变异、碱基修改变异(例如,甲基化)、额外或丢失碱基(插入或删除,即,插入/缺失)、拷贝数变异(CNV)等。基因变异的列表可以被存储为标准变异调用文件(VCF)等。
可以使用诸如质谱分析或微阵列或蛋白质芯片分析的实验室工具从组织样本采集蛋白质组数据。例如,微阵列的单元被设计为询问特定蛋白质,并且单元的输出表示量化用于对应的基因的基因表达水平的蛋白质浓度。质谱分析类似地量化样本中的分解的蛋白质的浓度。与NGS一样,可以生成大数量的数据。组合基因组和蛋白质组分析可以原则上提供协同信息。
然而,从基因组或蛋白质组数据集提取临床有用信息是具挑战性的。在监督式学习方法中,分析针对各种患者的WGS的形式的样本、基因表达数据等。在监督式方法中,关于其是否具有感兴趣的临床状况(例如,癌的类型)来标记样本(即,患者)。在这样的情况下,分析相当于识别基因组/蛋白质组数据的各种特征(其中,特征可以是基因变异、某个表达水平分箱等)与感兴趣临床状况的存在/缺失之间的相关性。当基因组/蛋白质组数据集包含数万的特征时,这可以是具挑战性的。
监督式学习限于关于感兴趣临床状况而标记的样本,并且不能利用未监督数据,即,未关于感兴趣临床状况的存在/缺失而标记的样本。因此,基因组和/或蛋白质组测试的监督式学习不能在没有适当的临床标记的情况下利用数据集。另一方面,无监督学习技术采用聚类等将类似样本一起分组而不考虑临床标记。这些聚类然后可以与任何可用的标记数据相比较以根据未标记的数据导出有用数据。然而,在缺少(至少最多)样本的临床标记的情况下的有用临床测试的无监督学习是比监督式学习甚至更具挑战性的。
为了解决维度挑战和相关联的问题,诸如深度学习自动编码器的技术已经被用于降低特征空间的维度并且压缩数据结构,同时使数据内容损耗最小化。然而,自动编码器的结构需要提前定义,并且优化结果以及数据压缩强烈地取决于该预定义结构;然而,存在可用于关于如何最佳挑选这样的结构的测试开发人员的很少引导。
以下公开了一种新的和改进的系统和方法。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于皇家飞利浦有限公司,未经皇家飞利浦有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880072504.0/2.html,转载请声明来源钻瓜专利网。





