[发明专利]基于Q-Learning的SVC编码HTTP流媒体自适应方法有效

申请号：	201810366841.2	申请日：	2018-04-23
公开（公告）号：	CN108737382B	公开（公告）日：	2020-10-09
发明（设计）人：	熊丽荣;尤日晶;沈树茂	申请（专利权）人：	浙江工业大学
主分类号：	H04L29/06	分类号：	H04L29/06;H04L29/08
代理公司：	杭州天正专利事务所有限公司 33201	代理人：	王兵;王幸祥
地址：	310014 浙江省杭州***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 learning svc 编码 http 流媒体自适应方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于Q-Learning的SVC编码HTTP流媒体自适应方法，包括以下步骤：

1)将SVC编码的流媒体交互情境构建Q-Learning模型，需要构建状态集(States)、行为集(Actions)、回报函数(Reward function)，以及选择探索策略；构建强化学习Q-Learning模型的步骤如下：

(1.1)状态集(States)构建：选用带宽和缓存填充状态构建环境状态，客户端需要对带宽和缓存填充状态进行离散；

(1.1.1)带宽的离散过程如下:定义带宽的最大值为BW_max,每个片段分割成M层，当处于第i层时，所需的最低带宽为thr_i，0≤i≤M,将带宽离散成{0～thr₀,thr₀～thr₁,…,thr_M-1～thr_M}，共M+1个状态；

(1.1.2)缓存填充状态离散如下：定义缓存存储片段范围为0～S_max，缓存填充状态bs(bufferState)由S_max个元素组成[s₁,s₂,s₃...s_smax]，其中s_k表示缓存存储位置的第k个片段存储的基础层和增强层总数；

状态构建为：s＝{bs,bw},这两个元素的离散情况及方式如下表1所示：

表1环境状态定义


元素	范围	离散方式
bs	1,s₂,s₃...s_smax]]]>	k∈(1,2,..M),k∈(1,2...S_max)]]>
bw	max]]>	0,thr₀～thr₁,...thr_M-1～thr_M}]]>

(1.2)行为集构建(Actions)：行为集定义为a＝(index,layer)，分别是缓存位置下标(index)和缓存位置所需下载等级(layer)；不同的状态一般具有不同的可选行为集；行为集元素的离散情况及方式如下表2所示：

表2行为集定义


元素	范围	离散方式
index	max]]>	max}]]>
layer	0～M	{0,1,2...M}

(1.2.1)决策行为从当前状态的可选行为集中进行选择，确定行为后，通过行为进行下载下一片段层；行为集添加如下所示，设当前缓存填充状态bs＝[s₁,s₂,...s_k]时，当前状态的可选行为集根据当前缓存填充状态从左往右进行添加，如果s_k的状态不为0，则添加行为a＝(k,s_k),如果s_k为0，则添加a＝(k,0),并终止进行查找新的行为；如果bs填充已满，则进入睡眠状态，等待缓存中视频片段被取出后，需要重新填充时，再进行决策；

(1.3)回报函数(Reward function)：回报函数包含三个因素r_freeze，r_action和r_switch,其定义如下：

(1.3.1)定义行为回报值为r_freeze,如果选择的行为造成了视频暂停播放，则对其进行惩罚，令r_freeze＝-10000，否则令r_freeze＝0；

(1.3.2)定义行为回报值为r_action,r_action＝100*(10-index)+layer,其中index表示了是缓存中的片段位置，layer则表示了当前下载层质量等级同时也代表了当前视频片段的质量，如果选择的行为尽量趋于缓存下标较前的位置时能够获得更高的回报值；

(1.3.3)定义片段的质量切换为r_switch,其定义公式r_switch＝-10*abs(leftlayer-layer)+(-10)*abs(rightlayer-layer)，计算填入的位置片段质量layer与左边的片段层级(leftlayer)质量差以及填入的位置片段质量layer与右边的层级(rightlayer)质量差；

(1.3.4)定义线性总体回报值为r,r＝r_freeze+r_action+r_switch；

(1.4)探索策略；

选用Softmax作为探索策略,根据当前状态的可选行为的Q值进行Boltzmann概率分布计算，其不同动作的概率分布公式如下:

其中π(a|s)是s状态下选择行为a的概率,计算s状态下的可选行集e的指数倍数累加和，并通过τ参数确定a行为在所有行为中的权重，保证了不同的行为具有不同的被选中的概率；

2)构建离线训练Q-Learning算法；

(2.1.1)确定输入参数：学习速率a，折扣因子γ，回报函数r，当前带宽bw,当前缓存区填充状态(bs)；

(2.1.2)确定输出参数：收敛的Q表

(2.1.3)确定随机初始化Q表；

(2.1.4)查看Q表是否收敛，如果Q表收敛则结束，如果Q表尚未收敛则进行新的探索；

(2.1.5)播放视频进行新的一轮探索；

(2.1.6)根据当前的带宽和缓存填充状态确定当前状态s；

(2.1.7)使用探索策略(softmax)从s状态选择行为a；