[发明专利]一种基于数据分布的小样本扩充对脱丁烷塔底丁烷浓度进行预测的方法有效
申请号: | 201810402513.3 | 申请日: | 2018-04-28 |
公开(公告)号: | CN108647272B | 公开(公告)日: | 2020-12-29 |
发明(设计)人: | 熊伟丽;毕略 | 申请(专利权)人: | 江南大学 |
主分类号: | G06F16/23 | 分类号: | G06F16/23;G06F16/2458 |
代理公司: | 哈尔滨市阳光惠远知识产权代理有限公司 23211 | 代理人: | 林娟 |
地址: | 214000 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于数据分布的小样本扩充方法,属于复杂工业过程建模和软测量领域。在基于数据驱动理论的建模过程中,样本的数量会对所建模型的精度产生影响。针对训练样本数量较少导致模型信息缺失的问题,该方法通过分析数据的分布特征来确定样本扩充的区间范围,通过使用欧氏距离和角度原则进行数据扩充,利用扩充数据完善建模对象在各阶段的信息,并进一步重构建模数据集,能够对关键变量进行精确预测,从而提高产品质量,降低生产成本。 | ||
搜索关键词: | 一种 基于 数据 分布 样本 扩充 丁烷 浓度 进行 预测 方法 | ||
【主权项】:
1.一种基于数据分布的小样本扩充方法,其特征在于,所述方法包括:步骤1:对工业过程数据进行归一化处理,即令x'=(x‑xmin)/(xmax‑xmin),其中x为原始训练样本,x'为归一化处理后的训练样本,xmin和xmax分别为原始训练样本集中的最小值与最大值,所述工业过程数据的原始训练样本符合期望为μ、标准差为σ的对数正态分布;步骤2:计算原始训练样本中每个ln(Yk)的值(其中k=1,…,m),m为原始训练样本数,并找到原始训练样本中主导变量的最大值Ymax和最小值Ymin;所述主导变量为需要预测的变量;步骤3:根据正态分布的3σ原则,将区间(μ‑3σ,μ+3σ)作为随机变量ln(Y)实际的取值区间,并且落在区间(μ‑3σ,μ‑2σ)、(μ‑2σ,μ‑σ)、(μ‑σ,μ)、(μ,μ+σ)、(μ+σ,μ+2σ)、(μ+2σ,μ+3σ)上的概率分别为2.1%、13.6%、34.1%、34.1%、13.6%、2.1%;令ln(Ymax)=μ+3σ,ln(Ymin)=μ‑3σ,将原始训练样本以主导变量的大小为分类标准,等距离划分为六组;步骤4:统计ln(Yk)在六个区间的样本个数,若区间内样本个数不少于理论的分配比率,即分别不少于2.1%、13.6%、34.1%、34.1%、13.6%、2.1%则不作处理;若区间内样本个数小于分配比率则进行样本扩充,扩充步骤如下:Step1:两两相互计算训练样本之间的相似度;数据之间相似度的计算方法如下:a,计算xq和xi之间的欧氏距离和角度:dqi=||xq,xi||2 (1)
其中,Δxq=xq‑xq‑1,Δxi=xi‑xi‑1 (3)b,如果cosθqi≥0,计算相似度系数sqi:
式中,γ是介于0到1之间的权重系数,如果cosθqi<0,则丢弃数据(xi,yi),计算得到的sqi也在0和1之间,且sqi越接近1,则表示xq和xi的相似度越高;Step2:取相似度最大的若干组,将每组的2个数据取算术平均数得到新的样本添加到原始训练样本中;Step3:其他需要扩充的区间亦做上述扩充处理,最后得到扩充过后新的训练样本集;对相似度的阈值进行设置;将阈值设置为0.8,当阈值大于0.8表示两个样本符合相似度的要求;步骤5:对进行样本扩充后得到的训练样本集进行软测量建模;选择高斯过程回归模型作为软测量模型;给定训练样本集X∈RD×N和y∈RN,其中X=[xi∈RD]i=1,…,N,y=[yi∈R]i=1,…,N分别代表D维的输入和输出数据;输入和输出之间的关系由式(5)产生:y=f(x)+ε (5)
其中,f是未知函数形式;对于一个新的输入x*,相应的概率预测输出y*的均值和方差如式(7)和式(8)所示:y*(x*)=cT(x*)C‑1y (7)
式中,c(x*)=[c(x*,x1),…,c(x*,xn)]T是训练数据和测试数据之间的协方差矩阵,
是训练数据之间的协方差矩阵,I是N×N维的单位矩阵,c(x*,x*)是测试数据的自协方差;根据协方差函数把输出间的相关关系转化成输入数据之间的函数关系,所述协方差函数选择高斯协方差函数:
式中,v为控制协方差的量度,ωd代表每个成分xd的相对重要性;对式(8)中的未知参数v,ω1,…,ωD和高斯噪声方差
的估计,通过极大似然估计得到参数![]()
计算参数θ的值包括,将参数θ通过极大似然估计方法进行估计;用共轭梯度法得到优化参数;步骤6:在获得最优参数θ后,对测试样本x*,采用式(7)和式(8)估计高斯过程回归模型的输出值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江南大学,未经江南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810402513.3/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置