[发明专利]一种基于多模态融合的疾病风险预测方法和系统有效
申请号: | 202110486200.2 | 申请日: | 2021-04-30 |
公开(公告)号: | CN113241135B | 公开(公告)日: | 2023-05-05 |
发明(设计)人: | 李玉军;胡喜风;刘治;胡伟凤 | 申请(专利权)人: | 山东大学 |
主分类号: | G16H10/60 | 分类号: | G16H10/60;G16H50/20;G16H50/70;G06F16/35 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 孙维傲 |
地址: | 266237 *** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多模态 融合 疾病 风险 预测 方法 系统 | ||
本申请提供一种基于多模态融合的疾病风险预测方法及系统,所述预测方法包括:获取待预测患者的EHR数据,所述数据包括结构化数据和非结构化数据;将EHR数据输入疾病风险预测模型,得到疾病风险预测结果;输出疾病风险预测结果;其中,疾病风险预测模型执行步骤:识别EHR数据为结构化数据和非结构化数据;对结构化数据和非结构化数据进行数据清洗;提取结构化数据特征和非结构化数据特征;提取融合特征,述融合特征为非结构化数据特征和结构化数据特征的融合特征;对融合特征进行疾病风险预测。本发明能够有效的帮助医生提供有效的参考信息,预判患者病情的发展情况,及时帮助救治,同时增加患者配合治疗的积极性。
技术领域
本申请涉及医学大数据信息处理领域,尤其涉及一种基于多模态融合的疾病风险预测方法和系统。
背景技术
公开该背景技术部分的信息仅仅旨在增加对本申请的总体背景的理解,而不必然被视为承认或以任何形式暗示该信息构成已经成为本领域一般技术人员所公知的现有技术。
电子健康记录(EHR)为健康研究创建了大量廉价的数据,其涵盖电子病历、既往病史信息、患者病历的文本记录等数据。数字化和对病历的后续分析构成了一种数字化转换领域,旨在以EHR的形式收集有关患者的多种医学信息,包括数字化测量(实验室结果)、口头描述(症状和便笺、生命体征等)、图像(X射线、CT和MR扫描等)并记录患者的治疗过程。这种数字化为挖掘健康记录创造了机会,以提高护理质量和临床结果。
然而临床医生只有有限的时间来处理所有可用数据并检测类似病历中的模式。电子健康记录包含具有重要研究和临床价值的结构化和非结构化数据,随着大量EHR数据的标准化和数字化,通过对大量多源异构数据进行挖掘进而建立风险预测模型来实现个性化医疗是亟需的。以往的大多数尝试都是建立在结构化的EHR字段上,非结构化文本数据中的大量信息被丢失。
发明内容
本发明发明人在了解现有技术存在的缺陷的基础上,发现通过对医学文本进行有效挖掘,并通过有效的数据融合手段将多源异构数据进行深层次的融合研究,能够避免单一数据所导致的局限性和片面性。因此,发明人在进一步地将深度学习与疾病预测相结合进行研究。然而,两者的结合伴随着以下问题,包括:
数据集数量和分布不均衡的问题:不带目的的数据收集往往会造成记录数据的完整度、准确度和颗粒度无法形成系统的体系,造成数据的缺失和不规范。因此,需要耗费一定的人力和物力进行数据采集。限于时间和财力,能够得到的良好的样本数量有限,比如,在本发明的一些实施方式中,得到良好的样本数量仅有1300例,且正负样本分布不均衡,这会极大地影响深度神经网络的学习和训练。
医学文本数据不能直接用于计算的问题:在现有的处理方式中,医学文本往往首先需要进行数字化表示。但是,这些文本数据通常是长文本且带有医学实体,采用CNN(Convolutional Neural Network,卷积神经网络)、word2vec(词向量产生模型)、LSTM(Long-Short Term Memory,长短期记忆网络)、Bi-LSTM(Bi-directional Long-ShortTerm Memory)等进行医学文本数据的向量表示时不尽人意。
以及,目前临床的真实数据大多是以多模态的形式存在,然而现在对于多模态方面的研究较少,单点突破已经做了很多事情,只考虑单模态因素不能对潜在风险进行综合评估,临床数据也未被充分挖掘利用。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110486200.2/2.html,转载请声明来源钻瓜专利网。