[发明专利]一种基于数据分布的小样本扩充对脱丁烷塔底丁烷浓度进行预测的方法有效
申请号: | 201810402513.3 | 申请日: | 2018-04-28 |
公开(公告)号: | CN108647272B | 公开(公告)日: | 2020-12-29 |
发明(设计)人: | 熊伟丽;毕略 | 申请(专利权)人: | 江南大学 |
主分类号: | G06F16/23 | 分类号: | G06F16/23;G06F16/2458 |
代理公司: | 哈尔滨市阳光惠远知识产权代理有限公司 23211 | 代理人: | 林娟 |
地址: | 214000 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 分布 样本 扩充 丁烷 浓度 进行 预测 方法 | ||
本发明公开了一种基于数据分布的小样本扩充方法,属于复杂工业过程建模和软测量领域。在基于数据驱动理论的建模过程中,样本的数量会对所建模型的精度产生影响。针对训练样本数量较少导致模型信息缺失的问题,该方法通过分析数据的分布特征来确定样本扩充的区间范围,通过使用欧氏距离和角度原则进行数据扩充,利用扩充数据完善建模对象在各阶段的信息,并进一步重构建模数据集,能够对关键变量进行精确预测,从而提高产品质量,降低生产成本。
技术领域
本发明涉及一种基于数据分布的小样本扩充对脱丁烷塔底丁烷浓度进行预测的方法,属于复杂工业过程建模和软测量领域。
背景技术
在工业过程复杂性日益增加,控制要求不断提高的背景下,通常需要对一些无法或难以直接测量的质量变量进行监控。这些变量有的虽然可用在线分析仪表进行检测,但是价格昂贵,而且可靠性差、具有较大测量滞后,难以在实时检测中广泛的应用。为了解决这类变量的估计和控制问题,软测量技术得到了很大的发展。软测量的原理就是根据某种最优准则,通过选择一组与主导变量(被估计变量)相关的一组辅助变量,建立以辅助变量为输入,被估计变量的最优估计为输出的数学模型。
在数据驱动的软测量建模中,需要通过训练样本来发掘模型对象的过程信息。在许多情况下一个完整工业过程是由多个子阶段组成的。由于各子阶段的特征信息是有差别的,所以在一些样本较少的实际情况中,有限的小样本难以准确的表征过程的整体信息,从而导致所建模型的预测效果会受到影响。现有的方法都只局限于提高样本质量或改进建模方法这两个方面,没有从样本数量的角度出发,来提升模型的泛化性能和预测精度。
发明内容
在一些样本较少的实际情况中,有限的小样本难以准确的表征过程的整体信息,从而导致主导变量估计不准确的问题,在此情况下,若对小样本数据进行某种选择性的扩充,可以使得扩充后样本更加全面的包含各阶段的特征信息。进一步利用重构的建模数据集进行建模,将会大大提高所建模型对主导变量的预测精度。
本发明考虑小样本建模的情况,首先通过分析实际的工业过程,得到数据的分布特征,然后再对已有的小样本进行分组和辅助变量的归一化处理,在数据信息不充足的子区间内,利用欧氏距离和角度原则,选择相似样本进行样本扩充,使得重构的样本集可以更加全面的表征模型各阶段的信息,提升了所建模型的预测精度。
为了解决目前存在的由于有限的小样本不能完整准确的表征工程的整体信息从而导致主导变量估计不准确的问题,本发明提供一种基于数据分布的小样本扩充方法,所述技术方案如下:
步骤1:对工业过程数据进行归一化处理,即令x'=(x-xmin)/(xmax-xmin),其中x为原始训练样本,x'为归一化处理后的训练样本,xmin和xmax分别为原始训练样本集中的最小值与最大值,所述工业过程数据的初始样本符合期望为μ、标准差为σ的对数正态分布;
所述工业过程数据的初始样本数量少于50或原始训练样本所包含的过程信息不完整;
步骤2:计算原始训练样本中每个ln(Yk)的值(其中k=1,…,m),m为原始训练样本数,并找到原始训练样本中主导变量的最大值Ymax和最小值Ymin;
所述原始训练样本中包括主导变量和辅助变量;其中,所述主导变量为需要预测的变量,所述辅助变量为直接测得的变量;
步骤3:根据正态分布的3σ原则,将区间(μ-3σ,μ+3σ)作为随机变量ln(Y)实际的取值区间,并且落在区间(μ-3σ,μ-2σ)、(μ-2σ,μ-σ)、(μ-σ,μ)、(μ,μ+σ)、(μ+σ,μ+2σ)、(μ+2σ,μ+3σ)上的概率分别为2.1%、13.6%、34.1%、34.1%、13.6%、2.1%;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江南大学,未经江南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810402513.3/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置