[发明专利]部分可观测马尔可夫决策过程中可伸缩视频流的优化调度方法有效
申请号: | 200910196540.0 | 申请日: | 2009-09-25 |
公开(公告)号: | CN101674482A | 公开(公告)日: | 2010-03-17 |
发明(设计)人: | 邹君妮;范凤军;彭兵;汪敏 | 申请(专利权)人: | 上海大学 |
主分类号: | H04N7/30 | 分类号: | H04N7/30 |
代理公司: | 上海上大专利事务所(普通合伙) | 代理人: | 陆聪明 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 部分 观测 马尔可夫 决策 过程 伸缩 视频 优化 调度 方法 | ||
1.一种部分可观测马尔可夫决策过程中可伸缩视频流的优化调度方法,其特征在于,针对无线广播下的环境进行假设简化,在用户状态不确定或部分可观测的条件下,对可伸缩视频流进行调度,采用部分可观测马尔可夫决策过程建立数据包调度优化模型,该模型包括状态集合、行动集合、状态转移概率、报酬函数、观察集合、观察概率,给出具体的调度过程,其具体步骤如下:
(1)、假设一个无线广播传输环境模型,其具体为:
(1-1)、AP需要将视频流发送给M个接收者r1,r2,…,rM;
(1-2)、AP需要在N个时隙内将L个包的集合L={l1,l2,…,lL}发送给接收者;
(1-3)、每一帧数据(L个包)的最大发送时间均为N个时隙,N个时隙结束之后,AP转向下一帧数据包的发送;
(1-4)、AP转发1个数据包的时间是一个时隙;
(1-5)、假设无线信道的丢包率服从参数为pi的伯努利分布;
(2)、分别对可伸缩视频流的每一帧数据分为L层,每层打包为一个数据包,每一帧的数据包集合记为L={l1,l2,…,lL},设立数据包调度优化模型,具体步骤为:
(2-1)、状态集合:在任一给定的时间节点,假设接收者rm收到了若干数据包,它是L的一个子集,该子集可以用L位矢量表示,即 其中b∈{0,1},bi=1表示rm拥有数据包li,否则bi=0,共有M个接收者,系统的状态s用一个矩阵来表示: 系统一共有2M×L个状态,
表示M个用户拥有的数据包的状态集合, 表示对应状态的概率分布
(2-2)、行动集合:A={a1,a2,…,aL}表示M个用户拥有的数据包的行动集合,在每一个时隙内AP选择一个需要发送的数据包,al表示“发送第l个数据包”;
(2-3)、状态转移概率:在给定参数为pi的伯努利丢包模型下,可以直接计算出状态转移 概率P(st+1=s′|st=s,at=a),例如,发送两个包到两个接收者,M=2,L=2,假设 在t时刻,系统处在s状态,即r1拥有数据包l1,r2拥有数据包l2,此时,AP选择行动a1=“发送l1”,那么转移到状态s′的概率是P(st+1=s′|st=s,at=a)=0;如果选择行动a2=“发送l2”,那么转移到的概率是P(st+1=s′|st=s,at=a)=1-p1;
(2-4)、报酬函数:报酬函数的选择必须使每一时间节点下的瞬时报酬r(s,a)的总和能准确地反应既定目标——视频流质量的最优化,可以把接收者接收到每一个特定数据包所减少的失真作为瞬时报酬,视频质量最优等价于所有M个用户的视频失真总和最小;
采取行动a后的状态转移概率已知,瞬时报酬r(s,a)可以通过下式计算
;
(2-5)、观察集合:O表示AP能观察到的观察集合,O={ACK,NAK},o(t)={o1(t),o2(t),…,oM(t)}表示在t时刻M个用户的联合观察,oi(t)∈{ACK,NAK},其中
ACK:确认收到数据包的反馈;
NAK:没有收到数据包的反馈;
(2-6)、观察概率:观察结果的不确定性,观察结果o在状态s下采取行动a后,用一个条件概率函数Z(s,a,o)=pr(o |s,a)来给出;
(3)、对可伸缩视频流优化调度:假设初始信念状态为: 设定第2M×L个状态为所有接收者成功接收到所有数据包的目标状态,针对某一帧数据包的具体调度步骤如下:
(3-1)、部分可观测马尔可夫决策过程的参数输入:初始信念状态
(3-2)、选择需要发送的数据包:在每一个时隙内AP通过下式选择需要发送的数据包,
其中∏1(b0,t0)表示一步部分可观测马尔可夫决策过程需要发送的最优数据包; 表示t0时刻在初始信念为b0的情况下,发送第k个数据包后第m个用户获得的一步失真减少;Ω(t)表示在t时刻需要发送的数据包的集合,初始时刻的Ω(t0)={1,2,…,L};
(3-3)、信念状态更新一次:每发送一个数据包,进行一次联合观察o,o(t)={o1(t),o2(t),…,oM(t)},其中oi(t)∈{ACK,NAK},系统发生状态转移,从状态si转移到状态sj,根据接收到的反馈的不同,sj的取值一共有2M种情况,即 的一次更新过程如下:
收益值为:
H1(b0,t0)表示一步部分可观测马尔可夫决策过程的收益值,每发送一次,概率更新一次,状态的确定度越来越大;
(3-4)、判断发送时隙n是否大于最大发送时隙数N,若大于,则转移到下一帧的数据包 进行发送;否则接着发送此帧的数据包。经过n步后,部分可观测马尔可夫决策过程的最大失真减少及其最优策略分别如下:
经过N个时隙后转移到下一帧数据包的调度,直至H帧的视频流的数据包调度完成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910196540.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:包括致动器的静电马达
- 下一篇:用于根据地理位置进行呼叫管理的方法和系统