[发明专利]一种基于深度学习的医疗记录模型构建方法、系统及装置有效
申请号: | 201711247467.6 | 申请日: | 2017-12-01 |
公开(公告)号: | CN108231146B | 公开(公告)日: | 2021-07-27 |
发明(设计)人: | 朱佳;杨芬;黄昌勤 | 申请(专利权)人: | 华南师范大学;广州凡平电子科技有限公司 |
主分类号: | G16H10/60 | 分类号: | G16H10/60;G16H50/70 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 胡辉 |
地址: | 510631 广东省广州市天*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 医疗 记录 模型 构建 方法 系统 装置 | ||
本发明公开了一种基于深度学习的医疗记录模型构建方法、系统及装置,方法包括获取医疗记录;对获取的医疗记录进行聚合训练,生成单词级向量、记录级向量和病人级向量;根据生成的单词级向量、记录级向量和病人级向量,采用循环神经网络构建医疗记录模型。系统包括获取模块、聚合训练模块以及模型构建模块。装置包括存储器和处理器。本发明充分利用包括患者个人资料、检验数值和病历记录等自由文本记录进行模型构建,提高了医疗记录模型的预测准确性;另外,本发明采用循环神经网络构建医疗记录模型,相较于选用现有主题模型或者学习直接的单词表述的方法,减少了计算量且提高了构建模型的效率。本发明可广泛应用于自然语言处理领域。
技术领域
本发明涉及自然语言处理领域,尤其是一种基于深度学习的医疗记录模型构建方法、系统及装置。
背景技术
近年来,随着电子健康记录(EHR)的出现,许多人尝试将机器学习方法应用于患者数据以解决诸如生存分析、因果推断和死亡率预测之类的问题。EHR数据库中数据量庞大的记录通常包含大量的数值特征,比如患者统计资料(年龄、性别、民族等)、实验室测量数值(如血气、液体平衡、生命特征等)、疾病和医疗程序的二元指标,以及自由文本的医疗记录等。虽然数值类的指标可以直接应用于大多数机器学习模型,但对于医生护士所写的医疗记录,研究人员使用的现有技术是选用现有的主题模型或者学习直接的单词表述,但由于记录的数据量庞大且无规律,导致这些现有技术的计算量很大,模型构建以及深度学习的效率很低;另外,对于由无序的单词组合而成的患者医疗记录,现有对医疗记录进行处理的技术无法充分利用自由文本的医疗记录单词(例如病历中的病情描述),导致最终模型的预测准确率很低。
发明内容
为解决上述技术问题,本发明的第一个目的在于:提供一种计算量小、效率高且准确率高的,基于深度学习的医疗记录模型构建方法。
本发明的第二个目的在于:提供一种计算量小、效率高且准确率高的,基于深度学习的医疗记录模型构建系统。
本发明的第三个目的在于:提供一种计算量小、效率高且准确率高的,基于深度学习的医疗记录模型构建装置。
本发明所采取的第一个技术方案是:
一种基于深度学习的医疗记录模型构建方法,包括以下步骤:
获取医疗记录,其中,所述医疗记录包括患者个人资料、检验数值和病历记录;
对获取的医疗记录进行聚合训练,生成单词级向量、记录级向量和病人级向量;
根据生成的单词级向量、记录级向量和病人级向量,采用循环神经网络构建医疗记录模型。
进一步,所述获取医疗记录这一步骤,具体为:
从临床记录和外部数据中获取医疗记录,其中,所述外部数据包括医学杂志和医学一体化语言系统。
进一步,所述对获取的医疗记录进行聚合训练,生成单词级向量、记录级向量和病人级向量这一步骤,包括以下步骤:
根据获取的医疗记录,制作词汇表,其中,所述词汇表包括与单词配对的否定词;
根据获取的医疗记录,确定待预测目标的时长;
根据制作的词汇表训练词向量,生成单词级向量;
对生成的单词级向量进行聚合,生成记录级向量和病人级向量。
进一步,所述根据制作的词汇表训练词向量,生成单词级向量这一步骤,具体为:
采用Word2Vec或Glove模型算法,通过不同的词序对同一医疗记录的多个副本进行并行处理;
根据并行处理的结果,生成单词级向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南师范大学;广州凡平电子科技有限公司,未经华南师范大学;广州凡平电子科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711247467.6/2.html,转载请声明来源钻瓜专利网。