[发明专利]一种用于慢性肾病病历分类的粗糙证据粒球Spark方法在审
申请号: | 202210630111.5 | 申请日: | 2022-06-06 |
公开(公告)号: | CN114860940A | 公开(公告)日: | 2022-08-05 |
发明(设计)人: | 丁卫平;李铭;陈嘉懿;孙颖;沈鑫杰;秦廷桢;鞠恒荣;黄嘉爽;王海鹏;高自强;董佳俊 | 申请(专利权)人: | 南通大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G16H10/60;G06K9/62 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 王毅 |
地址: | 226019 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 慢性 肾病 病历 分类 粗糙 证据 spark 方法 | ||
1.一种用于慢性肾病病历分类的粗糙证据粒球Spark方法,其特征在于,包括以下步骤:
步骤1、在主节点Master上,通过Hadoop分布式文件系统HDFS读取大规模慢性肾病病历数据集,接着将其划分为训练数据集STR和测试数据集STE,然后将慢性肾病病历数据转换为一个四元组决策信息系统S=U,C∪d,V,f,决策信息系统S表示如下:
S=U,C∪d,V,f,其中U={x1,x2,...,xM}表示慢性肾病病历数据集中的患者对象集合,M表示慢性肾病患者的个数;C={a1,a2,...,an}表示慢性肾病病历中病理属性的非空有限集合,n表示慢性肾病病历中病理属性的个数;d表示慢性肾病患者类别标签的非空有限集合,d=0表示患者没有患有慢性肾病,d=1表示患者患有慢性肾病,且V=∪a∈C∪dVa,Va是慢性肾病病历中病理属性a的可能情况;f:U×C∪d→V是一个信息映射函数,它为每个慢性肾病病历中病理属性赋予一个信息值,即
步骤2、在主节点Master上,将训练数据集STR划分为m个训练数据子集再将其发送到相应的子节点上,且满足任意的训练数据子集之间的交集为空和所有的训练数据子集之和等于训练数据集;
步骤3、在子节点Slaveri(i=1,2,...,m)上,根据粗糙证据粒球的自适应划分过程将训练数据子集SiTR并行划分成多个可信度为1的粗糙证据粒球集合;
步骤4、在子节点Slaveri(i=1,2,...,m)上,构建基于粗糙证据粒球的Spark并行病理属性约简模型并计算得到慢性肾病病历数据在不同子节点下的病理属性约简子集集合{R1,R2,...,Ri,...,Rm};
步骤5、基于粗糙证据粒球的Spark并行病理属性约简模型的构建方法:在子节点Slaveri上,首先相对于原始病理属性集C将训练数据子集并行划分成多个可信度为1的粗糙证据粒球集合,接着计算基于粗糙证据粒球的正域样本集然后依次移除单个病理属性a并计算正域样本集最后根据正域样本集内的样本是否发生变化来评估病例属性的重要程度,并得到该子节点上病理属性约简子集Ri;
步骤6、在主节点Master上将所有子节点的病理属性约简子集集合{R1,R2,...,Rm}聚合为R,然后将慢性肾病测试数据集广播到m个子节点上,并将训练数据子集和测试数据集中的慢性肾病病理属性集合C更新为病理属性约简子集R,得到新的训练数据子集集合和测试数据子集集合其中
步骤7、在子节点Slaveri上,通过Spark并行化的粗糙证据粒球邻域分类方法对测试数据子集中的待测慢性肾病患者进行预测类别标签;
步骤8、Spark并行化的粗糙证据粒球邻域分类模型的构建方法:首先在子节点Slaveri上将训练数据子集并行划分成多个可信度为1的粗糙证据粒球集合,接着计算测试数据子集中的待测慢性肾病患者到粗糙证据粒球的空间距离及其邻域空间,然后在主节点Master上聚合所有子节点上相同测试患者的邻域空间并根据其邻域样本信息来选择相应的分类方法,最后根据选择的分类方法来预测该患者是否患有慢性肾病。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南通大学,未经南通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210630111.5/1.html,转载请声明来源钻瓜专利网。