[发明专利]一种突变签名的预测方法、装置、终端设备及存储介质在审
申请号: | 202210586978.5 | 申请日: | 2022-05-27 |
公开(公告)号: | CN115035951A | 公开(公告)日: | 2022-09-09 |
发明(设计)人: | 郭菲;江丽敏;郗文辉;唐继军 | 申请(专利权)人: | 中国科学院深圳理工大学(筹) |
主分类号: | G16B20/50 | 分类号: | G16B20/50;G16B40/20;G06N20/00 |
代理公司: | 深圳中一联合知识产权代理有限公司 44414 | 代理人: | 梁姗 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 突变 签名 预测 方法 装置 终端设备 存储 介质 | ||
1.一种突变签名的预测方法,其特征在于,包括:
获取待预测样本的体细胞的第一基因表达向量,所述第一基因表达向量用于描述所述待预测样本与多个基因表达量的对应关系;
将所述第一基因表达向量分别输入已构建的多个预测模型进行预测,获得各所述预测模型输出的预测结果,所述预测模型用于描述多个所述基因表达量与一种突变签名的关联关系;
根据多个所述预测模型输出的预测结果,确定所述待预测样本的体细胞的突变签名。
2.如权利要求1所述的预测方法,其特征在于,构建多个所述预测模型的步骤包括:
获取癌症基因信息并构建第一数据集和第二数据集,所述第一数据集为多个第一关联关系向量的集合,所述第二数据集为多个第二基因表达向量的集合,其中,所述第一关联关系向量用于描述训练样本与多种所述突变签名的关联关系,所述第二基因表达向量用于描述所述训练样本与多个基因表达量的对应关系;
基于所述第一数据集和所述第二数据集通过线性回归模型获得线性回归值;
基于作为训练集的所述第一数据集与第四数据集,以及作为验证集的第三数据集训练各机器学习模型,直到满足第一预设条件停止训练获得训练后的各所述预测模型,其中,所述第四数据集为多个第三基因表达向量的集合,所述第三基因表达向量用于描述所述训练样本与预设数量的基因表达量的对应关系,所述预设数量为第二预设条件的所述线性回归值的数量,所述第三数据集为多个所述基因表达量与一种突变签名的关联关系的集合。
3.如权利要求2所述的预测方法,其特征在于,所述获取癌症基因信息并构建第一数据集和第二数据集的步骤包括:
获取所述癌症基因信息,所述癌症基因信息包括所述训练样本的体细胞的突变数据集、所述训练样本的基因表达量数据集及标准频率数据集,所述标准频率数据集为突变签名对应突变类型的频率数据集;
基于所述训练样本的体细胞的突变数据集获得样本频率数据集,所述样本频率数据集为所述训练样本的突变类型的频率数据集;
基于所述标准频率数据集和所述样本频率数据集,通过突变类型矩阵计算式获得所述第一数据集;
基于所述训练样本的基因表达量数据集获得所述第二数据集。
4.如权利要求3所述的预测方法,其特征在于,
所述突变类型矩阵计算式为:
Cn×i=An×mBm×i
其中,Cn×i为所述样本频率数据集,表示n个所述训练样本的i种突变类型的频率数据集;
An×m为所述第一数据集,表示n个所述训练样本与m种突变签名的关联关系;
Bm×i为所述标准频率数据集,表示m个突变签名对应i种突变类型的频率数据集,其中,n、m、i均为正整数,n≧1,m≧1,i≧1。
5.如权利要求2所述的预测方法,其特征在于,
所述机器学习模型包括随机森林模型、极端梯度提升树模型及支持向量机模型中至少一种。
6.如权利要求2所述的预测方法,其特征在于,
所述第一预设条件为:
ROC曲线下面积≧80%,以及准确度≧80%。
7.如权利要求2所述的预测方法,其特征在于,
所述第二预设条件为:
所述线性回归值从小到大排序的序列中序号小于或者等于Z的所述线性回归值,Z为正整数。
8.一种突变签名的预测装置,其特征在于,包括:
获取向量模块,用于获取待预测样本的体细胞的第一基因表达向量,所述第一基因表达向量用于描述所述待预测样本与多个基因表达量的对应关系;
模型预测模块,用于将所述第一基因表达向量分别输入已构建的多个预测模型进行预测,获得各所述预测模型输出的预测结果,所述预测模型用于描述多个所述基因表达量与一种突变签名的关联关系;
获取结果模块,用于根据多个所述预测模型输出的预测结果,确定所述待预测样本的体细胞的突变签名。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳理工大学(筹),未经中国科学院深圳理工大学(筹)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210586978.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种分体组装式洁身器
- 下一篇:一种纸板平模机存料装置