[发明专利]基于深度图匹配的医疗数据元自动化分类方法及系统有效
申请号: | 202111649231.1 | 申请日: | 2021-12-30 |
公开(公告)号: | CN114003791B | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 李劲松;辛然;杨宗峰;李玉格;孙慧瑶;周天舒;田雨 | 申请(专利权)人: | 之江实验室 |
主分类号: | G06F16/906 | 分类号: | G06F16/906;G06F16/901;G06F16/93 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 刘静 |
地址: | 310023 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 匹配 医疗 数据 自动化 分类 方法 系统 | ||
本发明公开了一种基于深度图匹配的医疗数据元自动化分类方法及系统,本发明定义了基于最小元数据信息的医疗数据元图数据模型,使得深度图匹配模型的效果同样适用于极低元数据信息的局部数据沼泽的情况,达到使用最少的元数据信息完成数据元自动化分类的目的,同时保证在图数据模型标准下采集的图结构数据适用于深度图匹配模型的训练;基于表示学习方法计算医疗数据元的向量表示,通过向量表示的分类,快速、自动化筛选有可能映射到标准数据模型的有效数据元;基于图注意力机制计算列顶点的向量表示,构建深度图匹配模型完成医疗数据元的自动化分类。本发明方法及系统具有良好的可拓展性,可应用于各类数据沼泽向数据湖转化问题的处理。
技术领域
本发明属于区域性医疗大数据中心、数据生产平台领域,尤其涉及一种基于深度图匹配的医疗数据元自动化分类方法及系统。
背景技术
随着医疗信息化的建设与发展,大数据与医疗服务的结合,促进了智慧医疗技术不断提升。目前,智慧医疗已经初具雏形,区域性医疗机构组成医联体或医共体并构建统一的医疗大数据中心已成后续智慧医疗数据治理体系发展的必然趋势。然而,医疗机构形态各异的信息平台、软件以及结构复杂的系统,导致不同机构平台之间无法实现数据的共享与交互,数据呈碎片化,形成数据孤岛。在区域性医疗机构间构建医疗大数据中心的过程中,时常发现机构内数据(尤其是历史久远的数据)缺乏管理,信息系统文档缺乏有效维护,字段备注丢失,文档质量低下,难以快速有效追溯数据血缘,形成局部的数据沼泽。传统的医疗大数据中心开发过程中,需要各医疗机构信息化部门和信息系统提供厂商相关负责人员配合医疗大数据中心的开发人员基于标准数据模型(如OMOP CDM)开发的数据接口(包括数据库视图、数据字典)完成数据发现、分类和数据关联映射任务,并完成人工分类和关联映射的数据存在标准数据模型对应的标准数据库中。数据来源的多样性,数据沼泽的密集和不可预知性普遍造成数据接口开发周期长、协调过程复杂、返工次数多等问题,耗费大量的人力物力财力,阻碍了区域性医疗大数据中心的快速自动化构建,同时为后续医疗数据的深度利用创造了很多困难。
医疗大数据中心开发过程中的数据发现、分类和数据关联映射任务,可以抽象为医疗数据元的筛选、分类任务和分类后的医疗数据元关联映射任务。首先,平台开发方案设计人员基于标准数据模型定义标准数据元分类体系和对应的数据接口规范。其后,开发人员通过规则查找和人工搜索筛选并确定与数据接口规范匹配的数据元,这一过程称为数据发现,数据发现过程确定了平台开发过程中医疗机构数据湖内哪些数据元应该被采集;开发人员根据数据发现的结果开发数据接口,并通过完成数据采集工作。最后,开发人员将医疗机构数据湖内的多源异构的数据元按照标准数据元分类体系进行分类,整合并关联映射到标准数据元分类体系上。
现有技术缺点主要体现在以下两个方面:
1)医疗机构信息系统数量多、提供厂商来源各异,数据采集过程复杂,依赖大量人工,阻碍了医疗大数据中心的建设和大数据应用的有效开展。一家三甲级医疗机构的信息系统数量可以达到100-300之多,形成了一个巨大的数据湖。数据湖中数据量大,关系错综复杂,决定了数据接口开发阶段的数据发现工作需要依赖医疗机构信息化部门和信息系统提供厂商相关负责人员的长期配合,数据接口之间相互衔接,造成数据发现工作的人工成本大,耗费时间长。中间环节一旦出现故障,问题的排查过程非常复杂。很大程度上阻碍了医疗大数据中心的开发和大数据应用的有效开展。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111649231.1/2.html,转载请声明来源钻瓜专利网。