[发明专利]一种基于深度学习的肺结节良恶性识别方法在审

专利信息
申请号: 201910673218.6 申请日: 2019-07-24
公开(公告)号: CN110534192A 公开(公告)日: 2019-12-03
发明(设计)人: 王健;文加斌;李孟颖;杨春梅;林鸿飞;张益嘉;王琰 申请(专利权)人: 大连理工大学;大连医科大学附属第二医院
主分类号: G16H50/20 分类号: G16H50/20;G16H10/60;G06F16/35;G06F16/33;G06F17/27;G06K9/62;G06N3/04;G06N3/08
代理公司: 21208 大连星海专利事务所有限公司 代理人: 王树本<国际申请>=<国际公布>=<进入
地址: 116024 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种肺结节良恶性识别方法,一种基于深度学习的肺结节良恶性识别方法,包括以下步骤:(1)、对原始肺结节电子病历数据进行预处理,(2)、文档筛选与分类,(3)、文本表示的构建,(4)、深度学习模型的训练,(5)、attention机制的加入,(6)、选择分类器对肺结节良恶性进行识别,(7)、对模型分类结果进行融合。本发明利用文本信息对肺结节良恶性进行判断来辅助医疗;还利用了深度学习的相关知识来进行文本分类,减少了人工干预,效率更高;通过不同的文本特征输入,比较性别和年龄、现病史、个人史这三个因素对肺结节良恶性预判的影响情况,采用结果融合的方法提高分类识别模型最终的准确率和稳定性。
搜索关键词: 肺结节 预处理 电子病历 分类识别 辅助医疗 结果融合 模型分类 人工干预 文本表示 文本分类 文本特征 文本信息 分类器 准确率 构建 文档 预判 学习 筛选 分类 融合
【主权项】:
1.一种基于深度学习的肺结节良恶性识别方法,其特征在于包括以下步骤:/n步骤1、对原始肺结节电子病历数据进行预处理,选择2015年期间大连医科大学附属二院部分肺结节电子病历数据集,并对其进行预处理,具体包括以下子步骤:/n(a)首先对原始肺结节电子病历数据进行去除噪音以及脱敏处理,包括去除病人的姓名、民族、出生地、职业、婚姻状况以及入院日期;/n(b)把文件中的病人数据按照病人ID进行统一处理,包括入院记录,手术记录,出院记录,CT即电子计算机断层扫描检查报告,CEA即癌胚抗原报告,NSE即神经元特异烯醇化酶报告,冰冻切片报告,然后对上述报告的文字内容进行相应粗提取;/n(c)对原始语料中病人姓名与病历不一致错误的信息采集要用空白文档先补齐,保证病历文档与所给病人标签要一致,然后对空白文档需要进行填充,数值类型的空缺数据,用0进行填充,文本类型的数据,用None进行填充;/n步骤2、文档筛选与分类,将步骤1处理好的原始肺结节电子病历数据进行特征筛选与分类,具体包括以下子步骤:/n(a)将入院记录中的性别和年龄、病情主诉、现病史、个人史以及胸部CT显示分别抽出作为后续模型不同的特征进行输入;/n(b)将CT报告中的CT表现进行提取作为判断肺结节良恶性的特征之一;/n(c)将CEA报告与NSE报告中的数字内容进行提取作为判断肺结节良恶性的特征之一;/n步骤3、文本表示的构建,先用分词工具进行分词,再利用现有数据构造相应的词向量,具体包括以下子步骤:/n(a)在高维空间中用一个维度描述词的信息,即随机初始化输入文本中的每个词,构造传统的one-hot表示方法;/n(b)用分布式词向量表示每个词的信息,把文本信息分布式地存储在向量各个维度中,利用Word2Vec工具对所得词进行词向量训练,单词来源是本次实验所采集到的文本数据,采用Word2Vec工具中的Continuous Bag of Word模型,即连续词袋模型CBOW进行词向量的训练,随机初始化,将单词或者字词映射到同一坐标系下用神经网络模型进行特征学习,从而得到连续的数值向量,该向量蕴含了丰富的上下文语义信息,再将分布式词向量的维度设置为50维;/n步骤4、深度学习模型的训练,采用卷积神经网络和长短时记忆神经网络深度学习模型进行训练,并使用深度学习工具keras加以实现,具体包括以下子步骤:/n(a)卷积神经网络训练模型,卷积神经网络是利用数学中常用的卷积运算形成的,其数学运算公式通过公式(1)进行描述,/nS(t)=(x*H)(t)=∫x(a)H(t-a)da (1)/n式中,S(t)表示参数函数x和核函数H的卷积,a表示积分变量,*表示卷积操作,在该卷积神经网络中,卷积的参数函数x是经过处理后的年龄与性别信息的向量作为训练模型的输入,卷积操作看成是对特征进行过滤的操作,通过核函数H获得局部最优的特征,并将这些特征保留下来组合在一起形成新的特征,这样每经过一层就会筛选出这层显著的特征传到下一层,通过公式(2)进行描述,/nS(t)=δ(Hxt:t+w-1+b) (2)/n式中,H表示核函数,这里将卷积核的时域长度即卷积核的大小设置为3,xt:t+w-1表示输入数据,即性别与年龄信息的词向量,词向量形式是[xt,xt+1,…,xt+w-2,xt+w-1],w表示输入窗口大小,这里窗口大小设置为2,b表示偏倚项,δ表示ReLU的激活函数;通过卷积操作,得到过滤后文本的特征值S(t),再选取滑动窗口后,在输入数据上依次滑动,得到不同窗口下的特征值,最后通过最大池化层来筛选这组特征值,从而获得最显著的特征;/n(b)长短时记忆神经网络,由于循环神经网络存在梯度消失和梯度爆炸的问题,于是引入长短时记忆神经网络,该神经网络引入了Memory Units即记忆单元,实现了神经网络学习遗忘历史信息的时间和用新信息更新记忆单元的时间,在t时刻时,记忆单元记录了t时刻之前的全部历史信息,实现了不定时间长度内的记忆信息功能,记忆单元主要是由三个门的控制,即输入门,输出门和遗忘门,输入门主要控制每个内存单元加入新信息数量的多少,输出门主要控制每个内存单元输出信息数量的多少,遗忘门主要控制每个内存单元需要遗忘信息的多少;这三个门决定了输入信息的重要与否、需不需要被记忆和能不能被输出,三个门的元素值在0和1之间,在某一时刻t,给定输入和隐含层节点状态的更新方式通过公式(3)至公式(7)进行描述,/nit=σ(Wixt+Uiht-1+Vict-1) (3)/nft=σ(Wfxt+Ufht-1+Vfct-1) (4)/not=σ(Woxt+Uoht-1+Voct-1) (5)/nct=ft*ct-1+it*tanh(Wcxt+Ucht-1) (6)/nht=ot*tanh(ct) (7)/n式中,it表示输入门,ft表示遗忘门,ot表示输出门,ct表示记忆单元,ct-1代表上一层记忆单元,ht表示隐含层状态节点,ht-1代表前一个隐含层状态节点,xt表示当前时刻t的输入,σ表示logistic的激活函数,Wi、Ui、Vi表示输入门的权重矩阵,Wf、Uf、Vf表示遗忘门的权重矩阵,Wo、Uo、Vo表示输出门的权重矩阵,Wc和Uc表示记忆单元的权重矩阵,其中Vi、Vf、Vo还是对角矩阵;将步骤2、3中处理好的个人史以及现病史信息词向量分别作为长短时记忆神经网络模型的输入,将模型层数设置为2层,输出维度分别为50,25,两层神经网络之间设置dropout函数防止过拟合,dropout值设置为0.2,模型中的激活函数设置为tanh函数;/n步骤5、attention机制的加入,即注意力机制的加入,通过获得当前词关于文档词序列的注意力权重,提高模型效果,具体是,将当前词与文档中的每一个词计算一个得分,然后通过softmax函数计算归一化,即将有限项离散概率分布的梯度对数归一化,从而获得权重值;/n步骤6、选择分类器对肺结节良恶性进行识别,利用上述步骤训练得到深度学习模型输出结果,用sigmoid函数进行分类,即将模型输出结果映射到0,1之间进行分类,在未标注数据上进行测试,识别未标注数据中病人的肺结节是良性还是恶性;/n步骤7、对模型分类结果进行融合,将步骤4、5、6得到的模型识别结果进行融合,以此来提高整个肺结节良恶性识别系统的性能。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学;大连医科大学附属第二医院,未经大连理工大学;大连医科大学附属第二医院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910673218.6/,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top