[发明专利]一种概率密度加权的遗传代谢病筛查数据混合采样方法在审

申请号：	202110320400.0	申请日：	2021-03-25
公开（公告）号：	CN113035363A	公开（公告）日：	2021-06-25
发明（设计）人：	尹建伟;林博;舒强;李莹;邓水光;蒋萍萍	申请（专利权）人：	浙江大学
主分类号：	G16H50/70	分类号：	G16H50/70;G16H50/20;G06K9/62
代理公司：	杭州求是专利事务所有限公司 33200	代理人：	万尾甜;韩介梅
地址：	310058 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种概率密度加权遗传谢病数据混合采样方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种概率密度加权的遗传代谢病筛查数据混合采样方法，其特征在于，包括：首先针对一种遗传代谢病，计算历史数据库中串联质谱检测数据的阳性样本数量、阴性样本数量，并分割获得训练数据集、测试集，确定混合采样的迭代次数和每次迭代的采样数量；使用串联质谱检测数据对逻辑回归算法进行训练，基于特征惩罚的方法估计每个特征的重要性；估计阳性样本的分布情况，并将概率密度分布作为样本生成的依据，根据采样概率随机生成阳性样本，获得混合采样结果。

2.根据权利要求1所述的概率密度加权的遗传代谢病筛查数据混合采样方法，其特征在于，首先确定全局参数：确定本次采样方法所针对的一种遗传代谢病D，计算历史数据库中串联质谱检测数据的阳性样本数量阴性样本数量并分割获得训练数据集、测试数据集；确定混合采样的迭代次数i，

每次迭代的采样数量为：

3.根据权利要求1所述的概率密度加权的遗传代谢病筛查数据混合采样方法，其特征在于，对于每次迭代，首先进行数据特征重要性评估：

对于遗传代谢病D，使用串联质谱检测数据对逻辑回归算法进行训练，并将算法的损失函数定义为：

其中J为交叉熵函数，X为训练数据集，y为数据标签，y＝1表示阳性数据，y＝0表示阴性数据，W为数据特征对应的权重，λ＞0为惩罚系数，完成模型参数优化后，将每个特征的最优权重值W作为面向D的数据特征重要性评估。

4.根据权利要求3所述的概率密度加权的遗传代谢病筛查数据混合采样方法，其特征在于，每次迭代中，在数据特征重要性评估后，进行阳性样本分布估计并生成单个阳性样本：

D的阳性样本先验分布设定为：

X^pos～N_p(μ，∑)

其中p表示样本X^pos＝(X₁，…，X_p)中筛查指标的数量，μ，∑为待确定参数；

对于先验分布参数估计为：

其中是μ的估计值，是∑的估计值，X^(m)是X^pos中第m个标记为阳性的样本；

对于一个阳性样本X^(m)，执行以下步骤：