[发明专利]基于深度图匹配的医疗数据元自动化分类方法及系统有效
申请号: | 202111649231.1 | 申请日: | 2021-12-30 |
公开(公告)号: | CN114003791B | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 李劲松;辛然;杨宗峰;李玉格;孙慧瑶;周天舒;田雨 | 申请(专利权)人: | 之江实验室 |
主分类号: | G06F16/906 | 分类号: | G06F16/906;G06F16/901;G06F16/93 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 刘静 |
地址: | 310023 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 匹配 医疗 数据 自动化 分类 方法 系统 | ||
1.一种基于深度图匹配的医疗数据元自动化分类方法,其特征在于,包括:
(1)定义基于最小元数据信息的医疗数据元图数据模型;将医疗机构内数据湖中存储的多源异构的数据元组成待筛选医疗数据元集合,向所述医疗数据元图数据模型自动化映射,映射结果存储为待筛选医疗数据元图数据;所述医疗数据元图数据模型采用有向属性图建模,图由顶点和边两种图元素构成;
所述顶点是由标签和对应标签的属性组构成的,标签代表顶点的类型,属性组代表标签拥有的一种或多种属性;所述顶点的本体信息包含顶点类型及每类顶点对应的属性信息,所述顶点类型包括数据库顶点、表顶点和列顶点,所述数据库顶点对应的属性信息包括数据库顶点索引和数据库类型信息,所述表顶点对应的属性信息包括表顶点索引,所述列顶点对应的属性信息包括列顶点索引、列数据类型信息和列向量表示;
所述边是由边类型和边属性构成的,每一条边均为有向边;所述边的本体信息包含边类型及每类边对应的属性信息,所述边类型包括起点为数据库顶点、终点为表顶点的父子关联,起点为表顶点、终点为列顶点的父子关联,以及起点和终点均为列顶点的外键,三种边类型对应的属性信息均为边索引;
(2)计算待筛选医疗数据元图数据中存储的各列顶点在医疗数据元图数据模型中的重要度;构建医疗数据元筛选模型,基于各列顶点的重要度计算各列顶点对应的列映射到标准数据模型的可能性,筛选出有效列顶点,由有效列顶点集合关联组成待分类医疗数据元图数据,有效列顶点对应的列集合组成待分类医疗数据元集合;
(3)从待分类医疗数据元图数据中确定标准分类医疗数据元图数据的种子顶点集合;基于种子顶点集合进行待分类医疗数据元图数据的子图切割;利用深度图匹配模型完成对待分类医疗数据元图数据中列顶点的分类,从而得到列顶点对应的医疗数据元的分类。
2.根据权利要求1所述的方法,其特征在于,所述多源异构的数据元向医疗数据元图数据模型的映射,包括:
将来自多源异构的医疗数据从数据湖中采集,组成待筛选医疗数据元集合;
使用元数据采集工具对数据湖中存储的元数据进行抓取;
使用列向量生成器,对待筛选医疗数据元集合中各表各列中存储的数据进行遍历,利用列向量表示模型预测得到各表各列的列向量表示;
通过图数据关联映射,将采集的元数据和产生的列向量表示向医疗数据元图数据模型关联映射,得到待筛选医疗数据元图数据。
3.根据权利要求2所述的方法,其特征在于,所述列向量生成器以数据表中的单列作为一个数据元单位,使用列向量表示模型转化各列存储的数据,计算各列的向量表示;
所述列向量表示模型的训练包括:列向量表示模型的训练数据为存储在标准数据库中的人工完成医疗数据元分类、数据结构符合标准数据模型的列数据,记为标准分类列;标准分类医疗数据元图数据中的列顶点与对应标准分类列存在一一对应关系;
设标准分类医疗数据元图数据中列顶点集合为,其中表示列顶点集合对应的标准分类列中第列,第行的数据,,为第行字符总数,为构成数据的字符;通过文本表示模型计算得到字符的初始向量表示;在标准分类医疗数据元图数据的列顶点下随机抽取行数据,第行数据的向量表示为,根据自注意力机制计算得到标准分类医疗数据元图数据中列顶点下各行数据的相关性,得到列顶点的列向量表示,计算公式为:
其中为列顶点的向量表示,为的维度,
所述列向量表示模型的预测包括:列向量表示模型的预测数据为数据湖中各数据库中各表各列所组成的待筛选医疗数据元集合,以列为遍历单元对待筛选医疗数据元集合进行遍历;使用列向量表示模型计算对列顶点每次随机抽样的列向量表示;对预测的多次随机抽样的列向量表示结果求平均值,作为所述列顶点最终的列向量表示。
4.根据权利要求3所述的方法,其特征在于,所述计算待筛选医疗数据元图数据中存储的各列顶点在医疗数据元图数据模型中的重要度,包括:
对于待筛选医疗数据元图数据中存储的列顶点,在除去的列顶点集合中随机抽取个列顶点,通过计算列顶点与抽取的列顶点的相关性,计算在医疗数据元图数据模型中的重要度分数,定义为:
其中为重要度函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111649231.1/1.html,转载请声明来源钻瓜专利网。