[发明专利]一种基于云端大数据迁移和处理成本的优化算法在审
申请号: | 201710445796.5 | 申请日: | 2017-06-14 |
公开(公告)号: | CN107273184A | 公开(公告)日: | 2017-10-20 |
发明(设计)人: | 夏辉;王晓薇;范书国 | 申请(专利权)人: | 沈阳师范大学 |
主分类号: | G06F9/455 | 分类号: | G06F9/455;G06F9/48;H04L29/08 |
代理公司: | 沈阳维特专利商标事务所(普通合伙)21229 | 代理人: | 陈福昌 |
地址: | 110034 辽宁省沈*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及云端大数据迁移优化的算法问题,属于云计算应用技术领域,本发明对多源大数据云端处理的数据和资源管理问题进行研究,以优化大数据云端处理的成本,提高其服务质量;基于此,首先将大数据云端处理的数据迁移和资源供给问题转化为联合随机优化问题,然后应用李雅普诺夫优化技术对模型进行求解并设计相应的在线决策算法;该算法不需要预测系统的未来状态,仅仅基于系统的当前状态做出决定。 | ||
搜索关键词: | 一种 基于 云端 数据 迁移 处理 成本 优化 算法 | ||
【主权项】:
一种基于云端大数据迁移和处理成本的优化算法,其特征在于,包括如下步骤:(1)定义是从数据源r∈R传输1GB数据到数据中心d∈D的价格,那么t时刻的带宽总费用可定义为:Cb(t)=Σd∈DΣr∈Rλrd(t)·brd---(1)]]>(2)假设sd为单时隙内数据中心d∈D上储存1GB数据所需要的成本,则t时刻系统产生的存储数据的总成本为:Cs(t)=Σd∈DΣr∈Rλrd(t)·sd---(2)]]>(3)定义为t时刻从数据中心d中租用的k类型虚拟机数量,令为t时刻数据中心d中k类型的虚拟机的价格,则数据处理所需要的计算成本为:Cp(t)=Σd∈DΣk∈Kndk(t)·pdk(t)---(3)]]>(4)假设为数据源r∈R传输数据到数据中心d∈D的延迟,α为将延迟转换为经济成本的权重系数,则延迟转换的计算成本为:Cl(t)=Σd∈DΣr∈Rα·λrd(t)·Lrd---(4)]]>基于以上的成本公式,可以得到系统中产生的总成本为:C(t)=Cp(t)+Cs(t)+Cb(t)+Cl(t) (5)假设ar(t)为t时刻数据源r生成的数据量,由于从任意数据源生成的数据可移动到任意数据中心进行处理,设为在t时刻从数据源r移动到数据中心d的数据量,为数据源r产生的最大数据量;则有:ar(t)≤Armax,∀r,t∈[1,T]---(6)]]>ar(t)≤Σd∈Dλrd(t),∀r,t∈[1,T]---(7)]]>根据上面的定义和假设,最小化时间段[0,T]内数据迁移和处理的时间平均成本可以形式化为:P1.min:limT→∞1TΣt=1T-1E{C(t)}---(8)]]>s.tar(t)≤Armax,∀r,t∈[1,T]---(9)]]>ar(t)=Σd∈Dλrd(t),∀r,t∈[1,T]---(10)]]>0≤ndk(t)≤Ndk,max,∀d,∀k,t∈[1,T]---(11)]]>ndk(t)∈Z+∪0,∀d,∀k,t∈[1,T]---(12)]]>从问题P1表达来看,由于数据生成是未知且动态的,资源变量是整数型,因此以上问题是一个约束随机整数优化问题;其中约束(10)是为了确保在单时隙内分配给各数据中心数据的总和等于在该时刻产生的总数据量.约束(11)确保了所需的虚拟机数量不超过数据中心可以提供的围.(5)利用李雅普诺夫优化框架理论设计在线控制算法令Hd(t)为时间序列上数据中心d中未处理的数据量,首先,定义Hd(0)=0,则队列Hd(t)的演化可以描述如下:Hd(t+1)=max[Hd(t)-Σk∈Kndk(t)·vk,0]+Σr∈Rλrd(t)---(13)]]>上述队列的更新规则意味着所处理的数据量为新到达的数据量为为了保证队列Hd(t),在最坏情况下的延迟处于最大工作负载延迟l内,设计了一个相关虚拟队列Zd(t),其中,虚拟队列Zd(t)的负载初始化为Zd(0)=0,且更新如下规则:Zd(t+1)=max[Zd(t)+1Hd(t)>0(ϵ-Σk∈Kndk(t)·vk)-1Hd(t)=0Σk∈KNdk,max·vk,0]---(14)]]>其中指示函数表示当Hd(t)>0时等于1,否则等于0;同样地,表示当Hd(t)=0时为1,否则为0;εd为预设常数,用来控制队列延迟的范围。由此可以证明,若所提算法能够保证队列Hd(t)和Zd(t)在长时间的稳定,则所有数据都可以在至多l个时隙延迟内得到处理.并且,l可设置为其中和分别是队列Hd(t)和Zd(t)的上限;令Z(t)=(Zd(t)),H(t)=(Hd(t)),分别表示虚拟队列和实际队列的矩阵,则可以用θ(t)=[H(t),Z(t)]来表示实际队列和虚拟队列的联合矩阵;据李雅普诺夫框架,定义李雅普诺夫函数如下:L(θ(t))=12Σd∈D{Zd(t)2+Hd(t)2}---(15)]]>其中L(θ(t))为系统中负载积压的度量。则单时隙的李雅普诺夫漂移函数则可定义为:Δ(θ(t))=E{L(θ(t+1))L(θ(t))|θ(t)} (16)为在保证系统队列稳定的同时还最小化系统所产生的花费,则李雅普诺夫漂移‑惩罚项可以在上式(16)漂移函数中增加系统总成本函数获得,即:Δ(θ(t))+V·E{C(t)|θ(t)} (17)其中V为非负参数,它可以在系统稳定性和成本之间进行折衷.V越大,系统产生的成本就越小,反之成本就越大.因此,原来的问题P1就变成了下面的问题P2:P2.min(17) (18)s.t.:(9)(10)(11)(12) (19)求解P2的关键是找到其上界,通过推导可证明,式子(17)的界为:Δ(θ(t))+V·E{limT→∞1TΣt=1T-1C(t)|θ(t)}≤B+E{Σd∈DΣk∈Kndk(t)·(Vpdk(t)-Hdk(t)vk-Zdk(t)vk)|θ(t)}+E{Σd∈DΣr∈Rλdr(t)·(Vsd+Vbrd+VLrd+Hd(t))|θ(t)}---(20)]]>其中通过仔细研究不等式(20)右边,将优化问题等价地分解成两个子问题:即数据分配问题和资源供应问题;(6)求解以上两个子问题的细节如下所述:a、数据迁移:为最小化式(20)右边,其中与数据迁移相关的部分可被提取为:minE{Σd∈DΣk∈Kλdr(t)·(Vsd+Vbrd+VαLrd+Hd(t))|θ(t)}---(21)]]>此外,由于各数据源的数据是独立生成的,式子(21)所述的多数据源整体优化方式可以分别在各数据源独立执行,考虑t时刻数据源r上数据分配,则所述数据迁移问题转化为解决如下问题:minΣd∈Dλdr(t)[Vsd+Vbrd+VαLrd+Hd(t)]s.t.(9)(10)---(22)]]>该问题是一个广义的最小权重问题,从数据源r迁移到数据中心d的权重为它与数据积压Hd(t),带宽成本储存成本sd,延迟成本有关,通过使用线性规划理论,我们可以求得以下解决方案:λrd(t)=αr(t)d=d*0else---(23)]]>其中显然,t时刻算法倾向于将数据源r产生的数据迁移至该时刻具有最短任务队列和最小运行成本的数据中心进行处理。b、资源配置:如去掉式子(20)右边的常数项B,则变量相关的部分可以被认为是资源供应问题,通过解决如下问题得到虚拟机最优供应策略:minE{Σd∈DΣk∈Kndk(t)·(Vpdk(t)-Hd(t)vk-Zd(t)vk)|θ(t)}s.t.(11)(12)---(24)]]>同理,由于各数据中心中的资源供给是独立的,与数据分配问题相似,式子(23)可以在每个数据中心建分布地求解,因而,对于单个数据中心d,资源供应问题可以进一步改写为:minE{Σk∈Kndk(t)·(Vpdk(t)-Hd(t)vk-Zd(t)vk)|θ(t)}s.t.(11)(12)---(25)]]>易得上述线性问题的解为:ndk(t)=Ndk,max,ifHd(t)+Zd(t)>Vpdk(t)vk0,ifHd(t)+Zd(t)≤Vpdk(t)vk---(26)]]>
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳师范大学,未经沈阳师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710445796.5/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置