[发明专利]基于孤立森林算法和投票机制的唐氏综合症筛查方法有效

申请号：	201810592920.5	申请日：	2018-06-11
公开（公告）号：	CN108877949B	公开（公告）日：	2021-04-27
发明（设计）人：	张红国;王瑞雪;李玲;刘婉莹;刘睿智;杨潇;黄玉兰;张海蓉;姜雨婷;李磊磊;刘丹;杨秀华	申请（专利权）人：	吉林大学
主分类号：	G16H50/70	分类号：	G16H50/70;G06K9/62
代理公司：	长春吉大专利代理有限责任公司 22201	代理人：	王淑秋
地址：	130012 吉***	国省代码：	吉林;22
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种基于孤立森林算法和投票机制的唐氏综合症筛查方法，该方法包括下述步骤：数据预处理：将多条样本加入数据集；划分数据集，得到A训练集和B训练集，进一步交叉划分A训练集，得到多个训练子集：训练得到多个孤立森林模型及其对应的异常度得分阈值；对B训练集中的样本投票得到每个样本的所得票数：获得预判决阈值以及B训练集中的每条样本的预判决结果；使用训练支持向量机SVM模型进行最终判决。本发明能够提高异常的检出率，降低误诊率。
搜索关键词：	基于孤立森林算法投票机制综合症方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于孤立森林算法和投票机制的唐氏综合症筛查方法，其特征在于包括下述步骤：步骤一：数据预处理：将每个孕妇中孕期唐氏筛查结果作为一条样本，每条样本包含ns个特征值u1,u2,…ui,…,uns，样本的特征向量为u(u1,u2,…ui,…,uns)，5≤ns≤10；将Z条样本加入数据集P＝(p1,p2，…pi…pZ)，Z≥5000；步骤二：划分数据集，得到A训练集Ptrain1和B训练集Ptrain2：首先：初步将数据集P划分成A训练集Ptrain1、B训练集Ptrain2，A训练集Ptrain1只含有阴性样本，B训练集Ptrain2既含有阴性样本又含有阳性样本；然后：进一步交叉划分A训练集Ptrain₁，得到多个训练子集1≤i≤M；100≤M≤1000；步骤三：训练多个孤立森林模型：使用任一训练子集训练孤立森林模型f_i,共得到M个孤立森林的模型集合F＝(f₁,f₂...f_i...f_M)，孤立森林模型f_i是由T棵孤立树组成的，即f_i＝{t₁,...,t_T}_i，对于训练子集中的一个样本遍历孤立森林中的每一棵孤立树，将样本最终落在第t棵孤立树的层数记为然后根据公式(1)得出样本在T棵孤立树的高度平均值n是中样本数量；定义异常得分为其中,中间变量c(ψ)的计算方法如下：公式(3)中，ψ是随机分配给每棵孤立树根节点的样本数，其中，H(ψ‑1)的计算方法如下：H(ψ‑1)＝ln(ψ‑1)+0.5772156649 (4)再根据自行设定的污染度参数C_w确定孤立森林f_i的异常得分阈值确定异常得分阈值的方法如下：对于样本有：其中，为待定异常得分阈值；调整待定异常得分阈值的大小，求得满足的最大的待定异常得分阈值即为所求异常得分阈值对于所有的得到M个孤立森林模型集合F＝(f₁,f₂...f_i...f_M)以及异常度得分阈值集合步骤四：对B训练集Ptrain2中的样本投票：将B训练集Ptrain₂中的每一条样本都带入到步骤三中得到的孤立森林模型集合中的每片孤立森林中，并最终被划分到各孤立树的一个叶子节点，针对B训练集Ptrain₂中的第k条样本p_{2_k}，设将其带入孤立森林f_i的第t棵孤立树，最终所落叶子节点的层数为根据式(1‑1)计算该叶子节点在T棵孤立树的高度平均值m是B训练集Ptrain₂中的样本数量；然后再根据(2‑1)计算该条样本p_{2_k}在孤立森林f_i中的异常得分：当时即判作该条样本p_{2_k}异常，此时孤立森林f_i给该条样本p_{2_k}投一票，否则不投票；将孤立森林f_i对该条样本p_{2_k}的投票结果记为按照同样方法，得到孤立森林模型集合F中的其他孤立森林对该条样本p2_k的投票结果；B训练集Ptrain₂中第k条样本p_{2_k}所得票数定义为同理，获得B训练集Ptrain2中的所有样本的所得票数；步骤五：获得预判决阈值Thvote以及Ptrain2中的每条样本的预判决结果：(1)获得预判决阈值Thvote：将B训练集Ptrain2中真阳性样本所得票数的最小值作为预判决阈值,记为Thvote；其中，代表Ptrain₂中真阳性样本集合Strains中第a条样本所得票数；N为真阳性样本集合Strains中样本的数目；(2)根据预判决阈值Th_vote和Ptrain₂中样本的得票情况对B训练集Ptrain₂中的样本进行预判决：如果Ptrain₂中第k条样本所得票数大于等于Th_vote，则判为阳性，否则判为阴性；步骤六：训练支持向量机SVM模型：使用B训练集Ptrain2中预判决结果为阳性的样本训练支持向量机SVM，训练方法如下：(1)将B训练集Ptrain2中预判决结果为阳性的样本集合另记为X＝(x1,x2,…xi...,xNs),对应的标签记为Y＝(y1,y2,…yi...,yNs)，Ns的值是步骤五中的预判决为阳性的样本的数量；(2)采用linear核的SVM核函数，得出适用于唐氏综合征筛查的SVM预测模型，SVM预测模型如下：式中：w为分类超平面的法向量；Cc为惩罚因子，取1；ξi为松弛变量，取值范围[0,1]；xi为B训练集Ptrain2中预判决结果为阳性的样本集合X中的第i个样本(u1,u2,…uns)i；yi为第i个样本xi的诊断结果；bi为分类超平面偏置项；s.t.代表约束条件；通过公式(9)和公式(10)进行优化得到分类超平面的法向量w和分类超平面偏置项b，从而得到分类超平面方程:步骤七：判决：(1)预判决：使用步骤三中得到的多个孤立森林f_i对测试样本投票，孤立森林f_i向测试样本Ptest_k投票的结果记为根据投票结果统计测试样本Ptest_k所得总票数当测试样本Ptest_k所得总票数大于或等于步骤五中得到的判决阈值Th_vote时，预判决结果为阳性，否则，预判决结果为阴性,其中：(2)最终判决：针对预判决结果为阴性的测试样本，将预判决结果作为最终判决结果；针对预判决结果为阳性的测试样本，使用步骤六中得到的支持向量机SVM进行最终判决，方法如下：将预判决结果为阳性的测试样本的特征向量(u₁,u₂,…u_ns)_ci作为x_i带入分类超平面方程判断结果记录为变量p_i；若则判断该测试样本为患病，即p_i＝1，若则判断该测试样本未患病，即p_i＝0。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于吉林大学，未经吉林大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810592920.5/，转载请声明来源钻瓜专利网。

上一篇：多模态数据处理方法及系统
下一篇：一种基于计算机的骨质疏松筛查方法和装置

同类专利

专利分类

G 物理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于孤立森林算法和投票机制的唐氏综合症筛查方法有效

专利文献下载