[发明专利]一种基于朴素贝叶斯的医疗影像疾病分类方法有效

专利信息
申请号: 201410171212.6 申请日: 2014-04-25
公开(公告)号: CN103955703A 公开(公告)日: 2014-07-30
发明(设计)人: 徐哲;洪嘉鸣;霍洪波;何必仕 申请(专利权)人: 杭州电子科技大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 杭州求是专利事务所有限公司 33200 代理人: 杜军
地址: 310018 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于朴素贝叶斯的医疗影像疾病分类方法。本发明根据设备类型和诊断报告表中的影像所见、诊断结论等文本信息,自动判断影像检查结果所属的疾病类型。考虑到朴素贝叶斯分类的独立性假设在实际应用中的影响,本发明采用K-Means聚类算法进行疾病聚类分析,将相似程度高的数据划分到同一簇中,相似程度低的数据划分到不同簇中,同时确定疾病类别数量。本发明利用朴素贝叶斯算法的高效、速度快特点,在保证分类精度的同时很大程度上提高了医疗影像检索的分类速度。
搜索关键词: 一种 基于 朴素 贝叶斯 医疗 影像 疾病 分类 方法
【主权项】:
一种基于朴素贝叶斯的医疗影像疾病分类方法,其特征在于该方法包括以下步骤:步骤1:首先利用机器学习方法,从医疗影像信息系统的数据报告表中提取10000数量的检查记录;使用K‑Means聚类算法进行疾病聚类分析,确定十个疾病类别;K‑Means聚类算法进行疾病聚类分析包括以下步骤:1‑1)从待分类数据记录X中任意选取K个数据记录作为初始簇类中心C={c1,c2,…,ck},令K=10;待分类数据记录X={a1,a2,…,an},ai表示待分类数据记录X的一个特征向量,X的维数是N维;1‑2)计算d(xi,Cj),d为待分类数据记录xi到类Cj的距离,并把具有最小值d(xi,Cj)的数据点xi划分到类Cj中,引进N维向量Uj作为类Cj的中心;1‑3)计算类Cj的中心点,通过计算类Cj中每个点的坐标平均值获得,即Uj;1‑4)如果每个数据记录X与它类中心点Uj的距离平方和最小,则符合条件,则停止该算法并返回最后结果C;否则将Uj(1≤j≤10)作为新的10个簇类中心,并返回1‑2);通过K‑Means聚类算法获得十个疾病类型后,借助国际疾病类型分类标准ICD‑10将这十个类别进行疾病类型确定和编码;步骤2:针对不同的疾病数据,将每种疾病类型保留25‑30条最具代表性的数据,并在数据库中对应的该条数据记录添加疾病编码;步骤3:分析整理报告数据表,清理脏数据,过滤空白数据,对待分类数据集进行缺失值处理,处理方法如下:3‑1)简单删除数据:将遗漏信息属性值的数据记录删除;3‑2)补齐数据:将先验知识与数据报告表结合起来,推断出缺失属性的最大可能的取值,从而填充缺失数据;结合这两种处理方法,使数据报告表完备化;步骤4:利用汉语词法分析系统,对数据库中待分类的数据记录进行分词,确定每条数据记录的属性值;步骤5:采用朴素贝叶斯分类器模型判断待分类数据记录归属的疾病类型,具体是:设变量集U={A,C},其中A={A1,A2,…,A25},包含25个条件属性;这25个条件属性由K‑Means聚类后的十大疾病种类中抽取的关键词表示;C={c1,c2,…,c10},包含十个取值,并且这十个取值对应于疾病的分类编码;将一个待分类数据记录X={a1,a2,…,a25}分配给类Ci,当且仅当:P(Ci/X)>P(Cj/X),具体如下:1)构成统计表:统计出待分类数据记录的个数S、类为Ci的数据记录个数Si、类Ci的数据记录中属性Ak取值为ak的数据记录个数Sik;2)计算<mrow><mi>P</mi><mrow><mo>(</mo><msub><mi>C</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><msub><mi>S</mi><mi>i</mi></msub><mi>S</mi></mfrac></mrow><mrow><mi>P</mi><mrow><mo>(</mo><mi>A</mi><mo>=</mo><msub><mi>a</mi><mi>k</mi></msub><mo>/</mo><msub><mi>C</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><msub><mi>S</mi><mi>ik</mi></msub><msub><mi>S</mi><mi>i</mi></msub></mfrac><mo>,</mo></mrow>构成概率统计表;3)利用朴素贝叶斯分类模型:<mrow><msub><mi>C</mi><mi>nb</mi></msub><mrow><mo>(</mo><mi>X</mi><mo>)</mo></mrow><mo>=</mo><mi>arg</mi><munder><mi>max</mi><mrow><msub><mi>C</mi><mi>i</mi></msub><mo>&Element;</mo><mi>C</mi></mrow></munder><mi>P</mi><mrow><mo>(</mo><msub><mi>C</mi><mi>i</mi></msub><mo>)</mo></mrow><munderover><mi>&Pi;</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mi>P</mi><mrow><mo>(</mo><msub><mi>a</mi><mi>k</mi></msub><mo>/</mo><msub><mi>C</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow>得出待分类数据记录X的判定结果即判定出了所属疾病类型Cnb
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201410171212.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top