[发明专利]一种长时生理信号时间序列的样本数据的扩充方法及系统在审
申请号: | 202010693658.0 | 申请日: | 2020-07-17 |
公开(公告)号: | CN112037906A | 公开(公告)日: | 2020-12-04 |
发明(设计)人: | 魏守水;王春元;崔怀杰;谢佳静;江兴娥 | 申请(专利权)人: | 山东大学 |
主分类号: | G16H50/20 | 分类号: | G16H50/20;G16H50/30;G06K9/62;G06N20/10 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 李圣梅 |
地址: | 250061 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 生理 信号 时间 序列 样本 数据 扩充 方法 系统 | ||
本公开提出了一种长时生理信号时间序列的样本数据的扩充方法及系统,主要面向用机器学习方法解决临床应用中的医学标注数据不足问题,包括:选取患者和健康人的与时间尺度无明显关联但有一定差异性的长时生理信号指标;利用不同时间尺度的指标作为不同样本的指标,以进行扩充样本量。本公开扩充出的新样本,均为患者本身的特征数据,因此与传统的方法相比,合成的样本能更好的代表样本的病征。本方法不局限于心电信号,同样可以扩充到其它长时间观测的信号,均属于本专利保护范围。本方法只要是对时间尺度不敏感(但有差异)的指标皆可。
技术领域
本公开属于样本扩充技术领域,尤其涉及一种长时生理信号时间序列的样本数据的扩充方法及系统,是在长时间序列分析中均可用此方法。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
生理信号长时间序列存在样本数据少的问题,例如:在利用心率变异性分析(HRV)对心血管疾病进行诊断、预测工作时经常会遇到样本量不足的问题,这对接下来利用机器学习训练分类模型的分类效果有很大的影响。目前,样本数据合成方法在很多数据处理领域中均有研究。
在处理不均衡数据的方法研究中,随机过抽样是合成新样本数据的最基本的方法。该方法首先随机选择并复制原始样本,然后将新生成样本集合添加进原始样本集合中,得到新的样本集合。新合成的数据是原始数据的简单复制,可能会导致分类器出现过拟合现象。尤其是分类器会对重复的样本产生多条规则,使这些规则过于具体化。
为解决过拟合问题,Chawla N V提出基于人工合成少数类过抽样技术(SMOTE算法)。SMOTE算法的思想是寻找少数类样本的k个同类最近邻样本,随机选择k个最近邻样本中的一个,并在这两个样本之间随机进行线性插值,以此来构造新的样本,较好的解决了样本扩充问题。但是,这种算法在有些情况可能会改变原始数据的分布特点。
在缺失数据的填充的方法研究中,最常用的样本合成方法为均值填充法,这种方法简单快捷,但无法较好的拟合原始数据。还有基于统计学的回归填充,基于数据完整部分来建立回归模型,将含缺失值样本的已知属性代入模型来估计未知属性。此外,利用KNN、决策树、多层感知器、对抗网络等机器学习的填充方法也相继被提出,缺失的属性通常被视为一个训练模型的目标输出,剩余其他完整属性是用于训练和测试的输入特性,算法通常根据数据集的完整部分使用机器学习方法来训练相关模型,在模型中对不完整属性进行估计。
发明人在研究中发现,在医学领域的研究中,用上述的方法模拟出的新样本仅在数值上与患者某些特征值相似,但是却无法真正确定新样本能否真正代表患者的病征,这样的新样本是无法用于医学研究的。
发明内容
为克服上述现有技术的不足,面向用机器学习方法中存在临床应用中的医学标注数据不足问题,本公开提供了一种长时生理信号时间序列的样本数据的扩充方法,扩充出的新样本的特征值均取自于原样本本身,可以有效解决合成样本是否具有实际意义的问题。
为实现上述目的,本公开的一个或多个实施例提供了如下技术方案:
一方面,公开了一种长时生理信号时间序列的样本数据的扩充方法,包括:
获取第一长时生理信号时间序列及第二长时生理信号时间序列,并分别进行数据预处理;其中,第一长时生理信号时间序列及第二长时生理信号时间序列为取自不同的样本库的不同类信号数据;
选取第一长时生理信号时间序列和第二长时生理信号时间序列对应的与时间尺度无明显关联且有明显差异性的指标;
使用多时间尺度分析将第一长时生理信号时间序列和第二长时生理信号时间序列按时间尺度分段;
根据指标随时间尺度的变化初步筛选无关联性指标;
验证初步筛选指标与时间尺度无明显关联性及选取指标在不同时间尺度有差异性;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010693658.0/2.html,转载请声明来源钻瓜专利网。