[发明专利]一种基于数据分布的小样本扩充对脱丁烷塔底丁烷浓度进行预测的方法有效

申请号：	201810402513.3	申请日：	2018-04-28
公开（公告）号：	CN108647272B	公开（公告）日：	2020-12-29
发明（设计）人：	熊伟丽;毕略	申请（专利权）人：	江南大学
主分类号：	G06F16/23	分类号：	G06F16/23;G06F16/2458
代理公司：	哈尔滨市阳光惠远知识产权代理有限公司 23211	代理人：	林娟
地址：	214000 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于数据分布的小样本扩充方法，属于复杂工业过程建模和软测量领域。在基于数据驱动理论的建模过程中，样本的数量会对所建模型的精度产生影响。针对训练样本数量较少导致模型信息缺失的问题，该方法通过分析数据的分布特征来确定样本扩充的区间范围，通过使用欧氏距离和角度原则进行数据扩充，利用扩充数据完善建模对象在各阶段的信息，并进一步重构建模数据集，能够对关键变量进行精确预测，从而提高产品质量，降低生产成本。
搜索关键词：	一种基于数据分布样本扩充丁烷浓度进行预测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于数据分布的小样本扩充方法，其特征在于，所述方法包括：步骤1：对工业过程数据进行归一化处理，即令x'＝(x‑xmin)/(xmax‑xmin)，其中x为原始训练样本，x'为归一化处理后的训练样本，xmin和xmax分别为原始训练样本集中的最小值与最大值，所述工业过程数据的原始训练样本符合期望为μ、标准差为σ的对数正态分布；步骤2：计算原始训练样本中每个ln(Yk)的值(其中k＝1,…,m)，m为原始训练样本数，并找到原始训练样本中主导变量的最大值Ymax和最小值Ymin；所述主导变量为需要预测的变量；步骤3：根据正态分布的3σ原则，将区间(μ‑3σ,μ+3σ)作为随机变量ln(Y)实际的取值区间，并且落在区间(μ‑3σ,μ‑2σ)、(μ‑2σ,μ‑σ)、(μ‑σ,μ)、(μ,μ+σ)、(μ+σ,μ+2σ)、(μ+2σ,μ+3σ)上的概率分别为2.1％、13.6％、34.1％、34.1％、13.6％、2.1％；令ln(Ymax)＝μ+3σ，ln(Ymin)＝μ‑3σ，将原始训练样本以主导变量的大小为分类标准，等距离划分为六组；步骤4：统计ln(Yk)在六个区间的样本个数，若区间内样本个数不少于理论的分配比率，即分别不少于2.1％、13.6％、34.1％、34.1％、13.6％、2.1％则不作处理；若区间内样本个数小于分配比率则进行样本扩充，扩充步骤如下：Step1：两两相互计算训练样本之间的相似度；数据之间相似度的计算方法如下：a，计算xq和xi之间的欧氏距离和角度：dqi＝||xq,xi||2 (1)其中，Δxq＝xq‑xq‑1，Δxi＝xi‑xi‑1 (3)b，如果cosθqi≥0，计算相似度系数sqi:式中，γ是介于0到1之间的权重系数，如果cosθqi<0，则丢弃数据(xi,yi)，计算得到的sqi也在0和1之间，且sqi越接近1，则表示xq和xi的相似度越高；Step2：取相似度最大的若干组，将每组的2个数据取算术平均数得到新的样本添加到原始训练样本中；Step3：其他需要扩充的区间亦做上述扩充处理，最后得到扩充过后新的训练样本集；对相似度的阈值进行设置；将阈值设置为0.8，当阈值大于0.8表示两个样本符合相似度的要求；步骤5：对进行样本扩充后得到的训练样本集进行软测量建模；选择高斯过程回归模型作为软测量模型；给定训练样本集X∈RD×N和y∈RN，其中X＝[xi∈RD]i＝1,…,N，y＝[yi∈R]i＝1,…,N分别代表D维的输入和输出数据；输入和输出之间的关系由式(5)产生：y＝f(x)+ε (5)其中，f是未知函数形式；对于一个新的输入x*，相应的概率预测输出y*的均值和方差如式(7)和式(8)所示：y*(x*)＝cT(x*)C‑1y (7)式中，c(x^*)＝[c(x^*,x₁),…,c(x^*,x_n)]^T是训练数据和测试数据之间的协方差矩阵，是训练数据之间的协方差矩阵，I是N×N维的单位矩阵，c(x^*,x^*)是测试数据的自协方差；根据协方差函数把输出间的相关关系转化成输入数据之间的函数关系，所述协方差函数选择高斯协方差函数：式中，v为控制协方差的量度，ωd代表每个成分xd的相对重要性；对式(8)中的未知参数v,ω₁,…,ω_D和高斯噪声方差的估计，通过极大似然估计得到参数计算参数θ的值包括，将参数θ通过极大似然估计方法进行估计；用共轭梯度法得到优化参数；步骤6：在获得最优参数θ后，对测试样本x*，采用式(7)和式(8)估计高斯过程回归模型的输出值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于江南大学，未经江南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810402513.3/，转载请声明来源钻瓜专利网。

上一篇：网页内容显示方法、装置、计算机可读存储介质和终端
下一篇：交友推荐方法及装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于数据分布的小样本扩充对脱丁烷塔底丁烷浓度进行预测的方法有效

专利文献下载