[发明专利]一种基于EHR中异构时态数据的学习方法有效
申请号: | 201910262444.5 | 申请日: | 2019-04-02 |
公开(公告)号: | CN110265151B | 公开(公告)日: | 2022-06-21 |
发明(设计)人: | 莫毓昌 | 申请(专利权)人: | 莫毓昌 |
主分类号: | G16H50/70 | 分类号: | G16H50/70;G06F16/28 |
代理公司: | 北京市盛峰律师事务所 11337 | 代理人: | 于国富 |
地址: | 福建省泉州市城东*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 ehr 中异构 时态 数据 学习方法 | ||
本发明公开了一种基于EHR中异构时态数据的学习方法,包括如下步骤,S1、将患者的EHR描述为由水平维度上的时间和垂直维度上的时间构成的时间矩阵;S2、将时间矩阵划分为多组时间序列,并将各时间序列通过SAX算法表示成符号序列;S3、使用生成的符号序列作为特征,采用原始序列方法、序列聚类方法和随机子序列方法分别建立预测模型;S4、评估使用原始序列方法、序列聚类方法和随机子序列方法分别建立的预测模型的预测性能,确定预测性能最好的预测模型。优点是:实现了将原始EHR数据转换为用标准机器学习算法直接处理的表格格式,允许直接应用任何标准机器学习算法;与基于单一表示的方法相比,该方法获取的预测模型的预测性能得到显著提高。
技术领域
本发明涉及预测模型领域,尤其涉及一种基于EHR中异构时态数据的学习方法。
背景技术
电子健康档案(EHR)包含日常临床活动中获得的大量纵向数据,EHR中综合病人病史构成了表型特征的可计算集合。在EHR中可以获得各种各样的数据类型,数据的异构类型提供了患者的整体视角,随时间收集的临床数据为患者提供了临床事件的轨迹,因此可以进行纵向分析。
目前,EHR数据的分析主要分为四类:共病性、患者聚类、机器学习和队列查询。其中,机器学习作为一种从大量EHR数据中获取有用信息的方法受到了广泛的关注,它们通常要求训练数据和测试数据都采用表格格式。然而,在不损失关键信息的条件下,EHR数据很少直接符合这种格式,标准机器学习算法不能直接从复杂的数据表中构建预测模型。因此将原始EHR数据转换为用标准机器学习算法直接处理的表格格式十分关键。
发明内容
本发明的目的在于提供一种基于EHR中异构时态数据的学习方法,从而解决现有技术中存在的前述问题。
为了实现上述目的,本发明采用的技术方案如下:
一种基于EHR中异构时态数据的学习方法,包括如下步骤,
S1、将患者的EHR描述为由水平维度上的时间和垂直维度上的时间构成的时间矩阵;
S2、将时间矩阵划分为多组时间序列,并将各时间序列通过SAX算法表示成符号序列;
S3、使用生成的符号序列作为特征,采用原始序列方法、序列聚类方法和随机子序列方法分别建立预测模型;
S4、评估使用原始序列方法、序列聚类方法和随机子序列方法分别建立的预测模型的预测性能,确定预测性能最好的预测模型。
优选的,步骤S2中将各时间序列通过SAX算法表示成符号序列包括如下步骤,
给定时间序列T;
将时间序列T使用PAA算法获得实向量
将的每个值映射到使用高斯分布定义的离散符号,获取的离散表示。
优选的,所述PAA算法包括如下步骤,
给出固定参数w;
将时间序列T表示在w维空间中得到实向量
优选的,获取实向量的离散表示包括如下步骤,
定义一组α-1个分割点Β={β1,...,βα-1},使来自每对(βi,βi+1)高斯正态曲线下的面积等于1/a,其中α是字母表大小;
假设β0=-∞,βα=∞,得到分割点后,中的PAA系数将映射到符号的序列,获取实向量的离散表示。
优选的,采用原始序列方法建立预测模型包括如下步骤,
使用SAX算法将每个时间序列转换为符号序列;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于莫毓昌,未经莫毓昌许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910262444.5/2.html,转载请声明来源钻瓜专利网。