[发明专利]一种基于归一化流理论的跨模态数据迁移方法有效
申请号: | 202310264757.0 | 申请日: | 2023-03-20 |
公开(公告)号: | CN115985402B | 公开(公告)日: | 2023-09-19 |
发明(设计)人: | 邓岳;刘少华 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G06F16/21;G06N3/04;G06N3/08 |
代理公司: | 北京慕达星云知识产权代理事务所(特殊普通合伙) 11465 | 代理人: | 李冉 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 归一化 理论 跨模态 数据 迁移 方法 | ||
本发明公开了一种归一化流理论的跨模态数据迁移方法,属于机器学习领域。该方法采用两阶段优化方法,在第一阶段的训练过程中,分别针对每个单细胞数据域单独设计一个基于归一化流的分布估计模块,将指定数据域特有的、复杂的数据分布一一映射到达隐空间中相对简单的数据分布;在第二阶段的训练过程中,针对特定的2个数据域,设计另外一个基于归一化流的模态迁移模块,在不同模态对应的隐空间中实现基于模态特征的单细胞跨模态数据迁移任务。本发明摆脱了常见的单细胞跨模态数据迁移算法需要成对数据进行训练的瓶颈,从而能够适用于多样化的单细胞跨模态数据迁移需求。
技术领域
本发明涉及机器学习领域,具体来说涉及跨模态数据迁移领域,更具体地说,涉及一种基于归一化流框架的跨模态数据迁移方法。
背景技术
单细胞技术的发展为从多个不同角度精确表征并分析细胞内的基因调控情况提供了可能,然而,标准单细胞技术也存在显著的局限性,那就是通常每次只能采用一种测量方式(如RNA测序、染色质可及性测量、甲基化观测、蛋白质组学测量等诸多单细胞技术中的某一种)来对给定的细胞进行观测与分析,进而失去了从不同模态、不同的层次来进行单细胞基因调控分析与表征的能力。
多模态分析能够联合分析同一细胞内的多种模态,进而达到获得并分析单细胞内不同阶段、不同层次情况下的单细胞基因调控如何相互作用的关键信息。然而,同时获得同一细胞内的多种模态面临着观测手段不同会互相引入误差、不同层次的生物分子观测存在干扰、同时开展多项观测会引入额外的较大观测误差、联合观测成本高昂等问题与难点。
因此如何获得相对准确的单细胞多模态数据成为一项亟待解决的难题。
发明内容
有鉴于此,本发明提供了一种基于归一化流理论的跨模态数据迁移方法,用于解决背景技术中存在的技术问题。
为了实现上述目的,本发明采用如下技术方案:
一种基于归一化流理论的跨模态数据迁移方法,包括以下步骤:
获取单细胞观测的不同模态数据,并构建不同模态数据对应的数据域;所述不同模态数据来自同一组织或群体的不同单细胞,包括第一模态数据和第二模态数据;
分别构建不同数据域对应的分布估计模块和隐空间,
所述分布估计模块用于将每个数据域的真实样本分布和对应隐空间的概率分布进行一一映射变换;
并将所述隐空间划分为跨模态共享子空间和自身模态特异子空间,所述跨模态共享子空间中的样本数据服从标准正态分布,所述自身模态特异子空间中的样本数据服从可变参量的正态分布;
构建不同分布估计模块的负似然函数,采用随机梯度下降算法,以负似然函数最小化为目标对分布估计模块进行优化,获取优化后的分布估计模块;
构建跨模态数据迁移模块,所述跨模态数据迁移模块用于输入第一模态隐变量和第二模态辅助隐变量,输出满足第二模态隐变量概率分布的样本数据和满足第一模态辅助隐变量概率分布的样本数据;
其中,所述第一模态隐变量为第一模态数据域中真实样本经对应分布估计模块转换后得到的样本数据;
所述第二模态辅助隐变量为第二模态数据域对应的自身模态特异子空间中的采样数据;
所述第二模态隐变量为第二模态数据域中真实样本经对应分布估计模块转换后得到的样本数据;
所述第一模态辅助隐变量为第一模态数据域对应的自身模态特异子空间中的采样数据;
对跨模态数据迁移模块中的可学习参数进行优化,获取优化后的跨模态数据迁移模块;
利用优化后的分布估计模块和优化后的跨模态数据迁移模块完成不同模态数据的数据迁移。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310264757.0/2.html,转载请声明来源钻瓜专利网。