[发明专利]一种基于朴素贝叶斯的医疗影像疾病分类方法有效
申请号: | 201410171212.6 | 申请日: | 2014-04-25 |
公开(公告)号: | CN103955703A | 公开(公告)日: | 2014-07-30 |
发明(设计)人: | 徐哲;洪嘉鸣;霍洪波;何必仕 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 杜军 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 朴素 贝叶斯 医疗 影像 疾病 分类 方法 | ||
1.一种基于朴素贝叶斯的医疗影像疾病分类方法,其特征在于该方法包括以下步骤:
步骤1:首先利用机器学习方法,从医疗影像信息系统的数据报告表中提取10000数量的检查记录;使用K-Means聚类算法进行疾病聚类分析,确定十个疾病类别;K-Means聚类算法进行疾病聚类分析包括以下步骤:
1-1)从待分类数据记录X中任意选取K个数据记录作为初始簇类中心C={c1,c2,…,ck},令K=10;待分类数据记录X={a1,a2,…,an},ai表示待分类数据记录X的一个特征向量,X的维数是N维;
1-2)计算d(xi,Cj),d为待分类数据记录xi到类Cj的距离,并把具有最小值d(xi,Cj)的数据点xi划分到类Cj中,引进N维向量Uj作为类Cj的中心;
1-3)计算类Cj的中心点,通过计算类Cj中每个点的坐标平均值获得,即Uj;
1-4)如果每个数据记录X与它类中心点Uj的距离平方和最小,则符合条件,则停止该算法并返回最后结果C;否则将Uj(1≤j≤10)作为新的10个簇类中心,并返回1-2);
通过K-Means聚类算法获得十个疾病类型后,借助国际疾病类型分类标准ICD-10将这十个类别进行疾病类型确定和编码;
步骤2:针对不同的疾病数据,将每种疾病类型保留25-30条最具代表性的数据,并在数据库中对应的该条数据记录添加疾病编码;
步骤3:分析整理报告数据表,清理脏数据,过滤空白数据,对待分类数据集进行缺失值处理,处理方法如下:
3-1)简单删除数据:将遗漏信息属性值的数据记录删除;
3-2)补齐数据:将先验知识与数据报告表结合起来,推断出缺失属性的最大可能的取值,从而填充缺失数据;
结合这两种处理方法,使数据报告表完备化;
步骤4:利用汉语词法分析系统,对数据库中待分类的数据记录进行分词,确定每条数据记录的属性值;
步骤5:采用朴素贝叶斯分类器模型判断待分类数据记录归属的疾病类型,具体是:
设变量集U={A,C},其中A={A1,A2,…,A25},包含25个条件属性;这25个条件属性由K-Means聚类后的十大疾病种类中抽取的关键词表示;C={c1,c2,…,c10},包含十个取值,并且这十个取值对应于疾病的分类编码;将一个待分类数据记录X={a1,a2,…,a25}分配给类Ci,当且仅当:P(Ci/X)>P(Cj/X),具体如下:
1)构成统计表:统计出待分类数据记录的个数S、类为Ci的数据记录个数Si、类Ci的数据记录中属性Ak取值为ak的数据记录个数Sik;
2)计算
3)利用朴素贝叶斯分类模型:
得出待分类数据记录X的判定结果即判定出了所属疾病类型Cnb。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410171212.6/1.html,转载请声明来源钻瓜专利网。