[发明专利]DASH标准下的基于KNN-Q学习的视频片段获取优化方法有效

申请号：	201710694985.6	申请日：	2017-08-15
公开（公告）号：	CN107547914B	公开（公告）日：	2020-04-21
发明（设计）人：	肖刚;周华康;程振波;朱天奇;唐文庆;高晶莹;张雷雷	申请（专利权）人：	浙江工业大学
主分类号：	H04N21/234	分类号：	H04N21/234;H04N21/61;H04N21/845;H04L29/06
代理公司：	杭州天正专利事务所有限公司 33201	代理人：	王兵;黄美娟
地址：	310014 浙江省杭州***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：	一种DASH标准下的基于KNN‑Q学习的视频片段获取优化方法。首先将DASH客户端定义为智能体Agent，Agent的优化目标是最大化缓存和视频质量参照指标结构相似性指数SSIM，且减小临近视频片段之间的SSIM的变化。Agent可以获取到网络带宽、缓存大小，视频片段的SSIM等数据，并将这些数据定义为状态。Agent获取状态后，通过强化学习里的Q学习算法，将状态映射为合适的动作，从而满足该目标。然而，该状态常常是连续值，导致采用传统的Q学习算法优化时，尽管能得到较好的性能，但是其Q表过于庞大，算法效率低下。但是如果将Q表状态数目减少尽管会提高算法的效率，但是将会降低性能。本发明在Q表状态数据减少的情况下，在不降低算法效率的同时，依然可以保持性能。
搜索关键词：	dash 标准基于 knn 学习视频片段获取优化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

DASH标准下的基于KNN‑Q学习的视频片段获取优化方法，步骤如下：1)定义DASH客户端为KNN‑Q学习算法中的智能体Agent；2)确定视频播放质量的参照指标为结构相似性指数SSIM；根据Thomas Zinner提出的SSIM和度量视频主观质量的参数平均意见分MOS之间的关系，MOS取值范围是0‑5之间，该值越大，代表主观感受越好，下面是SSIM和MOS之间的关系表；MOSSSIM5(Excellent)>0.994(Good)>＝0.95且<0.993(Fair)>＝0.88且<0.952(Poor)>＝0.50且<0.881(Bad)<0.5表1 MOS和SSIM关系表3)定义KNN‑Q学习算法的状态模型公式：S＝f(Sbandwidth+Sbuffer+Sprevious‑ssim) (1)将Agent观测到的环境值的函数值定义为状态S，环境值指网络、缓存、前一视频片段的SSIM值；Sbandwidth是网络带宽bandwidth的状态值；Sbuffer是缓存buffer的状态值；Sprevious‑ssim是前一视频片段的SSIM的状态值；4)定义KNN‑Q学习算法的动作Action；Agent的动作Action，定义为“对某一码率视频片段进行请求下载”；其中，视频片段的码率大小，由DASH服务器的转码模块确定；5)定义回报函数：Rewardtotal(s,a)=Rewardssim(s,a)+Rewardssim-change(s,a)+Rewardbuffer(s,a)---(2)]]>是评估“当前视频片段的质量指标SSIM”的回报值；是评估“前后相邻视频片段的质量指标SSIM差值”的回报值；是评估“缓存值”的回报值；6)定义Q值更新公式；Q(s,a)=(1-α)*Q(s,a)+α*(Rewardtotal(s,a)+maxa*Q(s′,a))---(3)]]>α是学习速率(learning rate)。γ是折扣因子(discount factor)。7)定义策略矩阵Q(S,A)，矩阵元素是公式(3)中的Q(s,a)；行S代表Agent的状态集合[s1 s2 … sm]；列A代表Agent的动作集合[a1 a2 … an]；8)定义动作的选取策略为Softmax策略eQt(a)/τΣi=0neQt(i)/τ---(5)]]>τ是温度参数(temperature parameter)9)KNN‑Q学习算法分为“训练阶段”和“部署测试阶段”；S1.训练阶段，为了得到策略矩阵Q(S,A)，供Agent“部署测试阶段”查询策略；以请求的视频片段的序列号segment作为时间的度量；具体包括：初始化策略矩阵Q(S,A)，设当前Agent所要获取的视频片段序列号为segment＝1；循环播放训练视频期间，迭代执行S11至S15,直到策略矩阵Q(S,A)收敛或者训练时间到；S11：依据状态模型公式(1)，计算出当前视频片段学列号为segment时的Agent的状态ssegment；S12：基于ssegment并根据Softmax策略查询策略矩阵Q(S,A)，从动作集合A中选择并执行动作asegment，即请求下载asegment所对应码率的视频片段；S13：根据回报函数(2)，计算当前状态(ssegment,asegment)的回报值S14：根据Q值更新公式(3)更新策略矩阵Q(S,A)；S15:Agent准备请求下一视频片段，视频片段序列号加一，即segment＝segment+1；S2.得到策略矩阵Q表后，进入“部署测试阶段”，该阶段主要是查询策略矩阵Q(S,A)以得到策略。“部署测试阶段”具体包括：准备好测试视频,设第一个视频片段序列号为segment＝1，迭代执行S21至S24，直到测试视频播放完毕；S21:依据状态模型公式(1)，计算出当前视频片段列号为segment时的Agent的状态ssegment；S22:根据状态ssegment，查询策略矩阵Q(S,A)；若Q(S,A)中不存在状态ssegment，则转到S23；若Q(S,A)中存在状态ssegment，则在Q(S,A)中取出ssegment与所有动作[a1 a2 … an‑1 an]对应的Q值，得到Q值数组转到S24；S23:根据KNN算法，在策略矩阵Q(S,A)中找到与状态ssegment最近邻的K个状态的Q值数组取均值作为的值，即转到S24；S24：在找到具有最大Q值所对应的动作a；Agent执行动作a,即请求下载相应码率的视频片段。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江工业大学，未经浙江工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710694985.6/，转载请声明来源钻瓜专利网。

同类专利

专利分类

H 电学

H04 电通信技术
H04N 图像通信，如电视
H04N21-00 可选的内容分发，例如交互式电视，VOD〔视频点播〕
H04N21-20 .专门适用于内容分发的专用服务器，例如：VOD服务器；其操作
H04N21-40 .专门适用于接收内容或者与内容交互的客户端设备，如STB[机顶盒]；相关操作
H04N21-60 .用于在服务器和客户端之间或者在远程客户端之间的视频分配的网络结构或者处理
H04N21-80 .通过内容产生器独立于分配过程实现的内容或附加数据的生成或处理；内容本身
H04N21-81 ..其单媒体部件

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]DASH标准下的基于KNN-Q学习的视频片段获取优化方法有效

专利文献下载