[发明专利]一种基于因果关系挖掘的临床数据自动化生成方法及系统有效
申请号: | 202210782447.3 | 申请日: | 2022-07-05 |
公开(公告)号: | CN114864099B | 公开(公告)日: | 2022-11-01 |
发明(设计)人: | 李劲松;路子豪;田雨;周天舒 | 申请(专利权)人: | 浙江大学 |
主分类号: | G16H50/70 | 分类号: | G16H50/70;G16H10/60;G06N3/04;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 刘静 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 因果关系 挖掘 临床 数据 自动化 生成 方法 系统 | ||
1.一种基于因果关系挖掘的临床数据自动化生成方法,其特征在于,具体步骤如下:
(1)数据集构建:构建以患者为行,患者临床信息为列的表格,得到需要进行虚拟生成的数据集;
(2)自然语言处理:对步骤(1)中得到的数据集中的文字信息和数值信息进行预处理,将文字信息转变为统一的表述形式,进行顺序编码后得到数字序列,对数值信息采用统一的数值表达形式;
(3)因果发现:将经过自然语言处理后的数据集的数据列作为数据节点,所有的数据节点之间均绘上连接线,完成一张完全无向图,再根据d 分隔的原理确定完全无向图中边的依赖方向,将完全无向图扩展为完全部分有向无环图,进而获得数据列之间的因果联系,得到因果图;
(4)原因数据生成:将步骤(3)中得到的因果图中的数据节点划分为起始原因列和后续结果列两种类型;对于起始原因列,根据自定义的组数计算组距和起始原因列数据的极差,进而绘制出频率分布直方图,得到频率分布折线图,近似得到总体密度曲线,计算概率密度函数的分布函数,得到值域为(0,1)的递增函数并取反函数,在[0,1]范围内均匀产生随机数,利用反函数找到对应的随机数,得到起始原因列数据的虚拟生成结果;
(5)结果数据生成:对于后续结果列中每一个结果数据,首先从正态分布中均匀采样获取随机噪声,并将该随机噪声与该结果数据对应的真实原因数据输入到生成器中,构建与真实原因数据具备因果联系的虚拟结果数据,之后将虚拟结果数据、真实原因数据以及真实的结果数据输入到判别器中训练,由判别器对虚拟结果数据的真实情况进行判断,对生成器和判别器经过一定轮次的训练达到稳定状态,再将随机噪声与虚拟原因数据输入到生成器中,从而得到虚拟结果数据。
2.根据权利要求1所述的一种基于因果关系挖掘的临床数据自动化生成方法,其特征在于,步骤(1)中,所述患者临床信息,是根据患者的入院编码在医院不同的科室中挑选出患者的病情、检查、病症和药物相关的临床信息。
3.根据权利要求1所述的一种基于因果关系挖掘的临床数据自动化生成方法,其特征在于,步骤(2)中,对于文字信息预处理过程具体为:消除无用的字符,对表格内的信息完整性进行查验,查看信息缺失、信息明确有误情况,并进行数据删除或更改,之后借助正则表达式对长句进行分割,再对分割之后的语句进行极性判断,进而借助统一的医学表达方式将各种不同的语言文字通过其内在含义的一致性转变为同一形式,保证表格内采用统一的表述形式,给每一列不同的文字表述进行顺序编码,将其转变为数字序列。
4.根据权利要求1所述的一种基于因果关系挖掘的临床数据自动化生成方法,其特征在于,步骤(2)中,预处理后的文字信息和数值信息结合得到由数字构成的真实医学临床表格数据;该表格数据用数学符号表示,其中为患者的入院编码集合,
5.根据权利要求1所述的一种基于因果关系挖掘的临床数据自动化生成方法,其特征在于,步骤(3)中,获得数据列之间的因果联系具体过程为:对于完全无向图中的任意两个数据节点,如果对其他所有节点均不满足条件独立的要求,则判定这两个数据节点之间有因果联系,再假设全部的随机节点在整体上服从多元高斯分布,依据偏相关系数的公式确定数据节点之间是否条件独立。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210782447.3/1.html,转载请声明来源钻瓜专利网。