[发明专利]DASH标准下的基于KNN-Q学习的视频片段获取优化方法有效
申请号: | 201710694985.6 | 申请日: | 2017-08-15 |
公开(公告)号: | CN107547914B | 公开(公告)日: | 2020-04-21 |
发明(设计)人: | 肖刚;周华康;程振波;朱天奇;唐文庆;高晶莹;张雷雷 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | H04N21/234 | 分类号: | H04N21/234;H04N21/61;H04N21/845;H04L29/06 |
代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 王兵;黄美娟 |
地址: | 310014 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种DASH标准下的基于KNN‑Q学习的视频片段获取优化方法。首先将DASH客户端定义为智能体Agent,Agent的优化目标是最大化缓存和视频质量参照指标结构相似性指数SSIM,且减小临近视频片段之间的SSIM的变化。Agent可以获取到网络带宽、缓存大小,视频片段的SSIM等数据,并将这些数据定义为状态。Agent获取状态后,通过强化学习里的Q学习算法,将状态映射为合适的动作,从而满足该目标。然而,该状态常常是连续值,导致采用传统的Q学习算法优化时,尽管能得到较好的性能,但是其Q表过于庞大,算法效率低下。但是如果将Q表状态数目减少尽管会提高算法的效率,但是将会降低性能。本发明在Q表状态数据减少的情况下,在不降低算法效率的同时,依然可以保持性能。 | ||
搜索关键词: | dash 标准 基于 knn 学习 视频 片段 获取 优化 方法 | ||
【主权项】:
DASH标准下的基于KNN‑Q学习的视频片段获取优化方法,步骤如下:1)定义DASH客户端为KNN‑Q学习算法中的智能体Agent;2)确定视频播放质量的参照指标为结构相似性指数SSIM;根据Thomas Zinner提出的SSIM和度量视频主观质量的参数平均意见分MOS之间的关系,MOS取值范围是0‑5之间,该值越大,代表主观感受越好,下面是SSIM和MOS之间的关系表;MOSSSIM5(Excellent)>0.994(Good)>=0.95且<0.993(Fair)>=0.88且<0.952(Poor)>=0.50且<0.881(Bad)<0.5表1 MOS和SSIM关系表3)定义KNN‑Q学习算法的状态模型公式:S=f(Sbandwidth+Sbuffer+Sprevious‑ssim) (1)将Agent观测到的环境值的函数值定义为状态S,环境值指网络、缓存、前一视频片段的SSIM值;Sbandwidth是网络带宽bandwidth的状态值;Sbuffer是缓存buffer的状态值;Sprevious‑ssim是前一视频片段的SSIM的状态值;4)定义KNN‑Q学习算法的动作Action;Agent的动作Action,定义为“对某一码率视频片段进行请求下载”;其中,视频片段的码率大小,由DASH服务器的转码模块确定;5)定义回报函数:Rewardtotal(s,a)=Rewardssim(s,a)+Rewardssim-change(s,a)+Rewardbuffer(s,a)---(2)]]>是评估“当前视频片段的质量指标SSIM”的回报值;是评估“前后相邻视频片段的质量指标SSIM差值”的回报值;是评估“缓存值”的回报值;6)定义Q值更新公式;Q(s,a)=(1-α)*Q(s,a)+α*(Rewardtotal(s,a)+maxa*Q(s′,a))---(3)]]>α是学习速率(learning rate)。γ是折扣因子(discount factor)。7)定义策略矩阵Q(S,A),矩阵元素是公式(3)中的Q(s,a);行S代表Agent的状态集合[s1 s2 … sm];列A代表Agent的动作集合[a1 a2 … an];8)定义动作的选取策略为Softmax策略eQt(a)/τΣi=0neQt(i)/τ---(5)]]>τ是温度参数(temperature parameter)9)KNN‑Q学习算法分为“训练阶段”和“部署测试阶段”;S1.训练阶段,为了得到策略矩阵Q(S,A),供Agent“部署测试阶段”查询策略;以请求的视频片段的序列号segment作为时间的度量;具体包括:初始化策略矩阵Q(S,A),设当前Agent所要获取的视频片段序列号为segment=1;循环播放训练视频期间,迭代执行S11至S15,直到策略矩阵Q(S,A)收敛或者训练时间到;S11:依据状态模型公式(1),计算出当前视频片段学列号为segment时的Agent的状态ssegment;S12:基于ssegment并根据Softmax策略查询策略矩阵Q(S,A),从动作集合A中选择并执行动作asegment,即请求下载asegment所对应码率的视频片段;S13:根据回报函数(2),计算当前状态(ssegment,asegment)的回报值S14:根据Q值更新公式(3)更新策略矩阵Q(S,A);S15:Agent准备请求下一视频片段,视频片段序列号加一,即segment=segment+1;S2.得到策略矩阵Q表后,进入“部署测试阶段”,该阶段主要是查询策略矩阵Q(S,A)以得到策略。“部署测试阶段”具体包括:准备好测试视频,设第一个视频片段序列号为segment=1,迭代执行S21至S24,直到测试视频播放完毕;S21:依据状态模型公式(1),计算出当前视频片段列号为segment时的Agent的状态ssegment;S22:根据状态ssegment,查询策略矩阵Q(S,A);若Q(S,A)中不存在状态ssegment,则转到S23;若Q(S,A)中存在状态ssegment,则在Q(S,A)中取出ssegment与所有动作[a1 a2 … an‑1 an]对应的Q值,得到Q值数组转到S24;S23:根据KNN算法,在策略矩阵Q(S,A)中找到与状态ssegment最近邻的K个状态的Q值数组取均值作为的值,即转到S24;S24:在找到具有最大Q值所对应的动作a;Agent执行动作a,即请求下载相应码率的视频片段。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710694985.6/,转载请声明来源钻瓜专利网。
- 上一篇:基于视频采集的办公室安全监控方法
- 下一篇:站内安全上下车视频监控方法