[发明专利]一种概率密度加权的遗传代谢病筛查数据混合采样方法在审
申请号: | 202110320400.0 | 申请日: | 2021-03-25 |
公开(公告)号: | CN113035363A | 公开(公告)日: | 2021-06-25 |
发明(设计)人: | 尹建伟;林博;舒强;李莹;邓水光;蒋萍萍 | 申请(专利权)人: | 浙江大学 |
主分类号: | G16H50/70 | 分类号: | G16H50/70;G16H50/20;G06K9/62 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 万尾甜;韩介梅 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 概率 密度 加权 遗传 谢病 数据 混合 采样 方法 | ||
1.一种概率密度加权的遗传代谢病筛查数据混合采样方法,其特征在于,包括:首先针对一种遗传代谢病,计算历史数据库中串联质谱检测数据的阳性样本数量、阴性样本数量,并分割获得训练数据集、测试集,确定混合采样的迭代次数和每次迭代的采样数量;使用串联质谱检测数据对逻辑回归算法进行训练,基于特征惩罚的方法估计每个特征的重要性;估计阳性样本的分布情况,并将概率密度分布作为样本生成的依据,根据采样概率随机生成阳性样本,获得混合采样结果。
2.根据权利要求1所述的概率密度加权的遗传代谢病筛查数据混合采样方法,其特征在于,首先确定全局参数:确定本次采样方法所针对的一种遗传代谢病D,计算历史数据库中串联质谱检测数据的阳性样本数量阴性样本数量并分割获得训练数据集、测试数据集;确定混合采样的迭代次数i,
每次迭代的采样数量为:
3.根据权利要求1所述的概率密度加权的遗传代谢病筛查数据混合采样方法,其特征在于,对于每次迭代,首先进行数据特征重要性评估:
对于遗传代谢病D,使用串联质谱检测数据对逻辑回归算法进行训练,并将算法的损失函数定义为:
其中J为交叉熵函数,X为训练数据集,y为数据标签,y=1表示阳性数据,y=0表示阴性数据,W为数据特征对应的权重,λ>0为惩罚系数,完成模型参数优化后,将每个特征的最优权重值W作为面向D的数据特征重要性评估。
4.根据权利要求3所述的概率密度加权的遗传代谢病筛查数据混合采样方法,其特征在于,每次迭代中,在数据特征重要性评估后,进行阳性样本分布估计并生成单个阳性样本:
D的阳性样本先验分布设定为:
Xpos~Np(μ,∑)
其中p表示样本Xpos=(X1,…,Xp)中筛查指标的数量,μ,∑为待确定参数;
对于先验分布参数估计为:
其中是μ的估计值,是∑的估计值,X(m)是Xpos中第m个标记为阳性的样本;
对于一个阳性样本X(m),执行以下步骤:
计算该阳性样本与剩余所有阳性样本之间的距离,距离的计算方法为:
其中X(n)表示除X(m)以外任意一个标记为阳性的样本,表示哈达玛积,表示2范数;
选出与X(m)距离最小的k个阳性样本(k>1),然后从k个阳性样本中随机挑选一个阳性样本用于生成新的阳性样本X*,计算方法为:
其中标量δ的取值范围为(0,1)。
5.根据权利要求4所述的概率密度加权的遗传代谢病筛查数据混合采样方法,其特征在于,基于概率密度生成阳性样本:
重复执行生成单个阳性样本的步骤次,其中g为一个大于0.5的浮点数,共计得到个备选阳性样本;
对于一个备选阳性样本X*,计算相应的采样概率R*:
其中F表示标准正态分布的累积分布函数;
计算所有备选阳性样本的采样概率,并根据采样概率随机选择个样本作为生成的阳性样本。
6.根据权利要求5所述的概率密度加权的遗传代谢病筛查数据混合采样方法,其特征在于,将生成的阳性样本和对应的数据标签加入训练数据集X中;随机从阴性样本中删除个样本,并更新训练数据集X。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110320400.0/1.html,转载请声明来源钻瓜专利网。