[发明专利]DASH标准下的基于KNN-Q学习的视频片段获取优化方法有效

专利信息
申请号: 201710694985.6 申请日: 2017-08-15
公开(公告)号: CN107547914B 公开(公告)日: 2020-04-21
发明(设计)人: 肖刚;周华康;程振波;朱天奇;唐文庆;高晶莹;张雷雷 申请(专利权)人: 浙江工业大学
主分类号: H04N21/234 分类号: H04N21/234;H04N21/61;H04N21/845;H04L29/06
代理公司: 杭州天正专利事务所有限公司 33201 代理人: 王兵;黄美娟
地址: 310014 浙江省杭州*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种DASH标准下的基于KNN‑Q学习的视频片段获取优化方法。首先将DASH客户端定义为智能体Agent,Agent的优化目标是最大化缓存和视频质量参照指标结构相似性指数SSIM,且减小临近视频片段之间的SSIM的变化。Agent可以获取到网络带宽、缓存大小,视频片段的SSIM等数据,并将这些数据定义为状态。Agent获取状态后,通过强化学习里的Q学习算法,将状态映射为合适的动作,从而满足该目标。然而,该状态常常是连续值,导致采用传统的Q学习算法优化时,尽管能得到较好的性能,但是其Q表过于庞大,算法效率低下。但是如果将Q表状态数目减少尽管会提高算法的效率,但是将会降低性能。本发明在Q表状态数据减少的情况下,在不降低算法效率的同时,依然可以保持性能。
搜索关键词: dash 标准 基于 knn 学习 视频 片段 获取 优化 方法
【主权项】:
DASH标准下的基于KNN‑Q学习的视频片段获取优化方法,步骤如下:1)定义DASH客户端为KNN‑Q学习算法中的智能体Agent;2)确定视频播放质量的参照指标为结构相似性指数SSIM;根据Thomas Zinner提出的SSIM和度量视频主观质量的参数平均意见分MOS之间的关系,MOS取值范围是0‑5之间,该值越大,代表主观感受越好,下面是SSIM和MOS之间的关系表;MOSSSIM5(Excellent)>0.994(Good)>=0.95且<0.993(Fair)>=0.88且<0.952(Poor)>=0.50且<0.881(Bad)<0.5表1 MOS和SSIM关系表3)定义KNN‑Q学习算法的状态模型公式:S=f(Sbandwidth+Sbuffer+Sprevious‑ssim)  (1)将Agent观测到的环境值的函数值定义为状态S,环境值指网络、缓存、前一视频片段的SSIM值;Sbandwidth是网络带宽bandwidth的状态值;Sbuffer是缓存buffer的状态值;Sprevious‑ssim是前一视频片段的SSIM的状态值;4)定义KNN‑Q学习算法的动作Action;Agent的动作Action,定义为“对某一码率视频片段进行请求下载”;其中,视频片段的码率大小,由DASH服务器的转码模块确定;5)定义回报函数:Rewardtotal(s,a)=Rewardssim(s,a)+Rewardssim-change(s,a)+Rewardbuffer(s,a)---(2)]]>是评估“当前视频片段的质量指标SSIM”的回报值;是评估“前后相邻视频片段的质量指标SSIM差值”的回报值;是评估“缓存值”的回报值;6)定义Q值更新公式;Q(s,a)=(1-α)*Q(s,a)+α*(Rewardtotal(s,a)+maxa*Q(s′,a))---(3)]]>α是学习速率(learning rate)。γ是折扣因子(discount factor)。7)定义策略矩阵Q(S,A),矩阵元素是公式(3)中的Q(s,a);行S代表Agent的状态集合[s1 s2 … sm];列A代表Agent的动作集合[a1 a2 … an];8)定义动作的选取策略为Softmax策略eQt(a)/τΣi=0neQt(i)/τ---(5)]]>τ是温度参数(temperature parameter)9)KNN‑Q学习算法分为“训练阶段”和“部署测试阶段”;S1.训练阶段,为了得到策略矩阵Q(S,A),供Agent“部署测试阶段”查询策略;以请求的视频片段的序列号segment作为时间的度量;具体包括:初始化策略矩阵Q(S,A),设当前Agent所要获取的视频片段序列号为segment=1;循环播放训练视频期间,迭代执行S11至S15,直到策略矩阵Q(S,A)收敛或者训练时间到;S11:依据状态模型公式(1),计算出当前视频片段学列号为segment时的Agent的状态ssegment;S12:基于ssegment并根据Softmax策略查询策略矩阵Q(S,A),从动作集合A中选择并执行动作asegment,即请求下载asegment所对应码率的视频片段;S13:根据回报函数(2),计算当前状态(ssegment,asegment)的回报值S14:根据Q值更新公式(3)更新策略矩阵Q(S,A);S15:Agent准备请求下一视频片段,视频片段序列号加一,即segment=segment+1;S2.得到策略矩阵Q表后,进入“部署测试阶段”,该阶段主要是查询策略矩阵Q(S,A)以得到策略。“部署测试阶段”具体包括:准备好测试视频,设第一个视频片段序列号为segment=1,迭代执行S21至S24,直到测试视频播放完毕;S21:依据状态模型公式(1),计算出当前视频片段列号为segment时的Agent的状态ssegment;S22:根据状态ssegment,查询策略矩阵Q(S,A);若Q(S,A)中不存在状态ssegment,则转到S23;若Q(S,A)中存在状态ssegment,则在Q(S,A)中取出ssegment与所有动作[a1 a2 … an‑1 an]对应的Q值,得到Q值数组转到S24;S23:根据KNN算法,在策略矩阵Q(S,A)中找到与状态ssegment最近邻的K个状态的Q值数组取均值作为的值,即转到S24;S24:在找到具有最大Q值所对应的动作a;Agent执行动作a,即请求下载相应码率的视频片段。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710694985.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top