[发明专利]基于大规模深度模型的cfRNA泛癌早筛方法及系统在审
申请号: | 202310509731.8 | 申请日: | 2023-05-08 |
公开(公告)号: | CN116580833A | 公开(公告)日: | 2023-08-11 |
发明(设计)人: | 沙磊;邓司伟;金泳成;周天尧 | 申请(专利权)人: | 苏州津渡生物医学科技有限公司 |
主分类号: | G16H50/20 | 分类号: | G16H50/20;G06F18/214;G06F18/24;G06N3/0464;G06N3/048;G06N3/084;G16B40/00;G16B30/00 |
代理公司: | 北京盛询知识产权代理有限公司 11901 | 代理人: | 陈巍 |
地址: | 215000 江苏省苏州市苏州工业园区*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 大规模 深度 模型 cfrna 泛癌早筛 方法 系统 | ||
本发明公开了一种基于大规模深度模型的cfRNA泛癌早筛方法及系统,其中,基于cfRNA的泛癌早筛方法包括:获取原始数据和癌症标签,原始数据包括:基因表达量数据、患者基本信息数据和患者病例数据;对若干原始数据进行预处理得到预处理数据;预处理数据包括训练集和测试集;构建深度学习模型,将训练集和所述癌症标签输入深度学习模型中进行训练,得到优化后的深度学习模型,将测试集输入训练好的深度学习模型,得到癌种分类结果。基于cfRNA的泛癌早筛系统包括采集模块、预处理模块、模型构建模块和分类模块。本发明提出的基于深度神经网络模型的方法可以动态的从数据中总结各种癌症所具有的信息种类,并对癌种做出精确的分类。
技术领域
本发明涉及癌种分类领域,特别涉及一种基于大规模深度模型的cfRNA泛癌早筛方法及系统。
背景技术
游离cell-freeRNA组学为癌症数据分类提供了新的方向。cfRNA组学用于疾病早期检测在学术界成为新的重要方向,数篇基于cfRNA进行疾病早期检测的国际期刊被陆续发表。其中,cfRNA组学用于怀孕期间疾病(子痫前期)检测发表于2021年《自然》正刊、神经退行性疾病检测发表于2020年《Science Advance》。Grail预计于2023年发表期第二篇cfRNA组用以肺癌早筛国际期刊论文,其学术海报已于2022年国际顶级会议《BiologyofGenomes》上发表。Grail所发表基于cfRNA的肺癌早筛方法使用466个RNA标志物组成的大组合(大Panel),初步数据提示外周血游离cfDNA组中含有高肿瘤片段比例(tumorfraction;TF)患者中,肺癌早筛在特异度100%的情况下,灵敏性高达95%,低TF患者中,灵敏性约为25%8。该报道可见cfRNA组学癌症早筛数据分类性能向高特异度倾斜明显,符合早期筛查的实际临床需要。
人工智能用于生命科学领域的趋势逐年上升,其中语言类人工智能模型近年飞速突破。2017年,Transformer人工智能模型被发表于顶级会议《NIPS》。2022年,OpenAI使用Transformer为主的底层算法,叠加重组构建了生成式预训练变换模型(GenerativePre-trainedTransformer;GPT),并发表商用产品ChatGPT。该产品以其智能高、理解能力强、生成式对话等特点成为人工智能领域一重大突破,让人工智能快速在大众用户中普及。2022年起,Transformer体系被大量用作生物科学领域的研发,如2022年由MetaAI(前Facebook)团队于bioRxiv预印本发表模型ESMFold,2023年创业团队于《自然-生物技术》发表模型Progen,通过使用语言人工智能模型,实现了媲美Alphafold2的蛋白质结构预测能力,并在预测未知蛋白等特定领域展示出了更高的效果。
发明内容
为解决现有技术问题,本发明提供一种基于大规模深度模型的cfRNA泛癌早筛方法及系统。本发明由深度神经网络所构造的高亮化模块和深层信息提取模块组成;利用cfRNA中的各个基因片段的表达量信息作为输入,癌症的标签作为输出来训练神经网络,从而实现泛癌种的早期筛查。
为了实现上述技术目的,本发明提供了如下技术方案:一种基于大规模深度模型的cfRNA泛癌早筛方法,包括:
获取原始数据和癌症标签,其中,所述原始数据包括:基因表达量数据、患者基本信息数据和患者病例数据;
对若干所述原始数据进行预处理得到预处理数据;其中,所述预处理数据包括训练集和测试集;
构建深度学习模型,将所述训练集和所述癌症标签输入所述深度学习模型中进行训练,得到优化后的深度学习模型,将所述测试集输入所述训练好的深度学习模型,得到癌种分类结果。
优选地,基于标准的生物信息学处理技术对若干所原始数据进行向量矩阵化预处理,得到预处理数据。
优选地,所述深度学习模型包括:Linformer模块和DRN模块。
优选地,将所述训练集输入所述深度学习模型中进行训练的过程包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州津渡生物医学科技有限公司,未经苏州津渡生物医学科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310509731.8/2.html,转载请声明来源钻瓜专利网。