[发明专利]基于在线强化学习的流媒体处理方法、装置及电子设备在审
申请号: | 202010880129.1 | 申请日: | 2020-08-27 |
公开(公告)号: | CN113422751A | 公开(公告)日: | 2021-09-21 |
发明(设计)人: | 周安福;吴蕾蕾;马华东;张欢欢;汤兴 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;G06N20/00 |
代理公司: | 北京市惠诚律师事务所 11353 | 代理人: | 刘子敬 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 在线 强化 学习 流媒体 处理 方法 装置 电子设备 | ||
本发明实施例提供了一种基于在线强化学习的流媒体处理方法、装置及电子设备,其中,方法包括获取当前时间段的流媒体状态数据;通过在线机器学习模型,根据流媒体状态数据,确定流媒体客户端的当前时间段的流媒体控制信息并发送;获取下一时间段的流媒体状态数据,对所述在线机器学习模型进行训练并对所述在线机器学习模型进行模型参数更新。本发明实施例采用了在线机器学习模型,根据当前的流媒体状态数据,决策出流媒体控制信息,并传送给客户端以控制进一步的流媒体的处理操作,如此进行迭代操作,从而适应动态变化的网络环境。与此同时,通过对在线机器学习模型进行训练,不断更新模型参数,以不断适应新的网络环境。
技术领域
本申请涉及一种基于在线强化学习的流媒体处理方法、装置及电子设备,属于计算机技术领域。
背景技术
为了保持高质量的用户体验(QoE,Quality of Experience),传统的交互式流媒体应用程序采用基于规则(rule-based)的协议,如传输层的拥塞控制和应用层的视频比特率自适应算法。然而,rule-based协议无法适应高度异构的现代互联网网络,包括蜂窝/WiFi无线链接、长距离的光纤链接、基于云的数据中心链接等,所有这些网络都具有不同的带宽、延迟和缓冲能力。
近年来,数据驱动的机器学习算法被提出用来改进流媒体的QoE。但是,现有的解决方案通常采用“离线学习,在线运行”的策略,即机器学习模型在模拟器或仿真器中进行训练,然后在实际应用中进行部署和测试。但是,由于模拟器或仿真器很难忠实地模拟复杂的真实网络世界中流媒体交互的动态,导致这样的离线学习模型在应用到现实世界中时性能较差。甚至在真实系统中可能表现出与在模拟环境中相反的性能特征。
发明内容
本发明实施例提供一种基于在线强化学习的流媒体处理方法、装置及电子设备,以提高流媒体的QoE性能。
为了实现上述目的,本发明实施例提供了一种流媒体数据处理方法,包括:
获取流媒体客户端的当前时间段的流媒体状态数据;
通过在线机器学习模型,根据所述流媒体状态数据,确定所述流媒体客户端的当前时间段的流媒体控制信息,并发送给所述流媒体客户端;
获取流媒体客户端的下一时间段的流媒体状态数据,根据所述下一时间段的流媒体状态数据和所述当前时间段的流媒体控制信息,对所述在线机器学习模型进行训练并对所述在线机器学习模型进行模型参数更新。
本发明实施例还提供了一种流媒体数据处理装置,包括:
状态数据获取模块,用于获取流媒体客户端的当前时间段的流媒体状态数据;
控制信息生成模块,用于通过在线机器学习模型,根据所述流媒体状态数据,确定所述流媒体客户端的当前时间段的流媒体控制信息,并发送给所述流媒体客户端;
模型更新模块,用于获取流媒体客户端的下一时间段的流媒体状态数据,根据所述下一时间段的流媒体状态数据和所述当前时间段的流媒体控制信息,对所述在线机器学习模型进行训练并对所述在线机器学习模型进行模型参数更新。
本发明实施例还提供了一种流媒体数据处理方法,包括:
检测当前时间段的流媒体状态数据,并发送部署在云服务器的与客户端对应的在线机器学习模型;
接收所述在线机器学习模型返回的当前时间段的流媒体控制信息,并根据该流媒体控制信息执行流媒体控制处理;
检测下一时间段的流媒体状态数据,并向所述在线机器学习模型进行发送。
本发明实施例还提供了一种流媒体数据处理方法,包括:
检测当前时间段的流媒体状态数据,发送给部署在本地在线机器学习模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010880129.1/2.html,转载请声明来源钻瓜专利网。