[发明专利]基于孤立森林算法和投票机制的唐氏综合症筛查方法有效
申请号: | 201810592920.5 | 申请日: | 2018-06-11 |
公开(公告)号: | CN108877949B | 公开(公告)日: | 2021-04-27 |
发明(设计)人: | 张红国;王瑞雪;李玲;刘婉莹;刘睿智;杨潇;黄玉兰;张海蓉;姜雨婷;李磊磊;刘丹;杨秀华 | 申请(专利权)人: | 吉林大学 |
主分类号: | G16H50/70 | 分类号: | G16H50/70;G06K9/62 |
代理公司: | 长春吉大专利代理有限责任公司 22201 | 代理人: | 王淑秋 |
地址: | 130012 吉*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于孤立森林算法和投票机制的唐氏综合症筛查方法,该方法包括下述步骤:数据预处理:将多条样本加入数据集;划分数据集,得到A训练集和B训练集,进一步交叉划分A训练集,得到多个训练子集:训练得到多个孤立森林模型及其对应的异常度得分阈值;对B训练集中的样本投票得到每个样本的所得票数:获得预判决阈值以及B训练集中的每条样本的预判决结果;使用训练支持向量机SVM模型进行最终判决。本发明能够提高异常的检出率,降低误诊率。 | ||
搜索关键词: | 基于 孤立 森林 算法 投票 机制 综合症 方法 | ||
【主权项】:
1.一种基于孤立森林算法和投票机制的唐氏综合症筛查方法,其特征在于包括下述步骤:步骤一:数据预处理:将每个孕妇中孕期唐氏筛查结果作为一条样本,每条样本包含ns个特征值u1,u2,…ui,…,uns,样本的特征向量为u(u1,u2,…ui,…,uns),5≤ns≤10;将Z条样本加入数据集P=(p1,p2,…pi…pZ),Z≥5000;步骤二:划分数据集,得到A训练集Ptrain1和B训练集Ptrain2:首先:初步将数据集P划分成A训练集Ptrain1、B训练集Ptrain2,A训练集Ptrain1只含有阴性样本,B训练集Ptrain2既含有阴性样本又含有阳性样本;然后:进一步交叉划分A训练集Ptrain1,得到多个训练子集![]()
1≤i≤M;100≤M≤1000;步骤三:训练多个孤立森林模型:使用任一训练子集
训练孤立森林模型fi,共得到M个孤立森林的模型集合F=(f1,f2...fi...fM),孤立森林模型fi是由T棵孤立树组成的,即fi={t1,...,tT}i,对于训练子集
中的一个样本
遍历孤立森林中的每一棵孤立树,将样本
最终落在第t棵孤立树的层数记为
然后根据公式(1)得出样本
在T棵孤立树的高度平均值
n是
中样本数量;
定义异常得分为![]()
其中,中间变量c(ψ)的计算方法如下:
公式(3)中,ψ是随机分配给每棵孤立树根节点的样本数,其中,H(ψ‑1)的计算方法如下:H(ψ‑1)=ln(ψ‑1)+0.5772156649 (4)再根据自行设定的污染度参数Cw确定孤立森林fi的异常得分阈值
确定异常得分阈值
的方法如下:对于样本
有:
其中,
为待定异常得分阈值;调整待定异常得分阈值
的大小,求得满足
的最大的待定异常得分阈值
即为所求异常得分阈值
对于所有的
得到M个孤立森林模型集合F=(f1,f2...fi...fM)以及异常度得分阈值集合
步骤四:对B训练集Ptrain2中的样本投票:将B训练集Ptrain2中的每一条样本都带入到步骤三中得到的孤立森林模型集合中的每片孤立森林中,并最终被划分到各孤立树的一个叶子节点,针对B训练集Ptrain2中的第k条样本p2_k,设将其带入孤立森林fi的第t棵孤立树,最终所落叶子节点的层数为
根据式(1‑1)计算该叶子节点在T棵孤立树的高度平均值
m是B训练集Ptrain2中的样本数量;然后再根据(2‑1)计算该条样本p2_k在孤立森林fi中的异常得分:![]()
当
时即判作该条样本p2_k异常,此时孤立森林fi给该条样本p2_k投一票,否则不投票;将孤立森林fi对该条样本p2_k的投票结果记为![]()
按照同样方法,得到孤立森林模型集合F中的其他孤立森林对该条样本p2_k的投票结果;B训练集Ptrain2中第k条样本p2_k所得票数定义为![]()
同理,获得B训练集Ptrain2中的所有样本的所得票数;步骤五:获得预判决阈值Thvote以及Ptrain2中的每条样本的预判决结果:(1)获得预判决阈值Thvote:将B训练集Ptrain2中真阳性样本所得票数的最小值作为预判决阈值,记为Thvote;
其中,
代表Ptrain2中真阳性样本集合Strains中第a条样本所得票数;N为真阳性样本集合Strains中样本的数目;(2)根据预判决阈值Thvote和Ptrain2中样本的得票情况对B训练集Ptrain2中的样本进行预判决:如果Ptrain2中第k条样本所得票数
大于等于Thvote,则判为阳性,否则判为阴性;步骤六:训练支持向量机SVM模型:使用B训练集Ptrain2中预判决结果为阳性的样本训练支持向量机SVM,训练方法如下:(1)将B训练集Ptrain2中预判决结果为阳性的样本集合另记为X=(x1,x2,…xi...,xNs),对应的标签记为Y=(y1,y2,…yi...,yNs),Ns的值是步骤五中的预判决为阳性的样本的数量;(2)采用linear核的SVM核函数,得出适用于唐氏综合征筛查的SVM预测模型,SVM预测模型如下:![]()
式中:w为分类超平面的法向量;Cc为惩罚因子,取1;ξi为松弛变量,取值范围[0,1];xi为B训练集Ptrain2中预判决结果为阳性的样本集合X中的第i个样本(u1,u2,…uns)i;yi为第i个样本xi的诊断结果;bi为分类超平面偏置项;s.t.代表约束条件;通过公式(9)和公式(10)进行优化得到分类超平面的法向量w和分类超平面偏置项b,从而得到分类超平面方程:
步骤七:判决:(1)预判决:使用步骤三中得到的多个孤立森林fi对测试样本投票,孤立森林fi向测试样本Ptestk投票的结果记为![]()
根据投票结果
统计测试样本Ptestk所得总票数
当测试样本Ptestk所得总票数
大于或等于步骤五中得到的判决阈值Thvote时,预判决结果为阳性,否则,预判决结果为阴性,其中:
(2)最终判决:针对预判决结果为阴性的测试样本,将预判决结果作为最终判决结果;针对预判决结果为阳性的测试样本,使用步骤六中得到的支持向量机SVM进行最终判决,方法如下:将预判决结果为阳性的测试样本的特征向量(u1,u2,…uns)ci作为xi带入分类超平面方程
判断结果记录为变量pi;若
则判断该测试样本为患病,即pi=1,若
则判断该测试样本未患病,即pi=0。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810592920.5/,转载请声明来源钻瓜专利网。
- 上一篇:多模态数据处理方法及系统
- 下一篇:一种基于计算机的骨质疏松筛查方法和装置