[发明专利]一种基于朴素贝叶斯的医疗影像疾病分类方法有效
申请号: | 201410171212.6 | 申请日: | 2014-04-25 |
公开(公告)号: | CN103955703A | 公开(公告)日: | 2014-07-30 |
发明(设计)人: | 徐哲;洪嘉鸣;霍洪波;何必仕 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 杜军 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于朴素贝叶斯的医疗影像疾病分类方法。本发明根据设备类型和诊断报告表中的影像所见、诊断结论等文本信息,自动判断影像检查结果所属的疾病类型。考虑到朴素贝叶斯分类的独立性假设在实际应用中的影响,本发明采用K-Means聚类算法进行疾病聚类分析,将相似程度高的数据划分到同一簇中,相似程度低的数据划分到不同簇中,同时确定疾病类别数量。本发明利用朴素贝叶斯算法的高效、速度快特点,在保证分类精度的同时很大程度上提高了医疗影像检索的分类速度。 | ||
搜索关键词: | 一种 基于 朴素 贝叶斯 医疗 影像 疾病 分类 方法 | ||
【主权项】:
一种基于朴素贝叶斯的医疗影像疾病分类方法,其特征在于该方法包括以下步骤:步骤1:首先利用机器学习方法,从医疗影像信息系统的数据报告表中提取10000数量的检查记录;使用K‑Means聚类算法进行疾病聚类分析,确定十个疾病类别;K‑Means聚类算法进行疾病聚类分析包括以下步骤:1‑1)从待分类数据记录X中任意选取K个数据记录作为初始簇类中心C={c1,c2,…,ck},令K=10;待分类数据记录X={a1,a2,…,an},ai表示待分类数据记录X的一个特征向量,X的维数是N维;1‑2)计算d(xi,Cj),
d为待分类数据记录xi到类Cj的距离,并把具有最小值d(xi,Cj)的数据点xi划分到类Cj中,引进N维向量Uj作为类Cj的中心;1‑3)计算类Cj的中心点,通过计算类Cj中每个点的坐标平均值获得,即Uj;1‑4)如果每个数据记录X与它类中心点Uj的距离平方和最小,则符合条件,则停止该算法并返回最后结果C;否则将Uj(1≤j≤10)作为新的10个簇类中心,并返回1‑2);通过K‑Means聚类算法获得十个疾病类型后,借助国际疾病类型分类标准ICD‑10将这十个类别进行疾病类型确定和编码;步骤2:针对不同的疾病数据,将每种疾病类型保留25‑30条最具代表性的数据,并在数据库中对应的该条数据记录添加疾病编码;步骤3:分析整理报告数据表,清理脏数据,过滤空白数据,对待分类数据集进行缺失值处理,处理方法如下:3‑1)简单删除数据:将遗漏信息属性值的数据记录删除;3‑2)补齐数据:将先验知识与数据报告表结合起来,推断出缺失属性的最大可能的取值,从而填充缺失数据;结合这两种处理方法,使数据报告表完备化;步骤4:利用汉语词法分析系统,对数据库中待分类的数据记录进行分词,确定每条数据记录的属性值;步骤5:采用朴素贝叶斯分类器模型判断待分类数据记录归属的疾病类型,具体是:设变量集U={A,C},其中A={A1,A2,…,A25},包含25个条件属性;这25个条件属性由K‑Means聚类后的十大疾病种类中抽取的关键词表示;C={c1,c2,…,c10},包含十个取值,并且这十个取值对应于疾病的分类编码;将一个待分类数据记录X={a1,a2,…,a25}分配给类Ci,当且仅当:P(Ci/X)>P(Cj/X),具体如下:1)构成统计表:统计出待分类数据记录的个数S、类为Ci的数据记录个数Si、类Ci的数据记录中属性Ak取值为ak的数据记录个数Sik;2)计算![]()
和![]()
构成概率统计表;3)利用朴素贝叶斯分类模型:![]()
得出待分类数据记录X的判定结果即判定出了所属疾病类型Cnb。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410171212.6/,转载请声明来源钻瓜专利网。