首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]基于在线强化学习的流媒体处理方法、装置及电子设备在审

申请号：	202010880129.1	申请日：	2020-08-27
公开（公告）号：	CN113422751A	公开（公告）日：	2021-09-21
发明（设计）人：	周安福;吴蕾蕾;马华东;张欢欢;汤兴	申请（专利权）人：	阿里巴巴集团控股有限公司
主分类号：	H04L29/06	分类号：	H04L29/06;G06N20/00
代理公司：	北京市惠诚律师事务所 11353	代理人：	刘子敬
地址：	英属开曼群岛大开***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于在线强化学习流媒体处理方法装置电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种流媒体数据处理方法，包括：

获取流媒体客户端的当前时间段的流媒体状态数据；

通过在线机器学习模型，根据所述流媒体状态数据，确定所述流媒体客户端的当前时间段的流媒体控制信息，并发送给所述流媒体客户端；

获取流媒体客户端的下一时间段的流媒体状态数据，根据所述下一时间段的流媒体状态数据和所述当前时间段的流媒体控制信息，对所述在线机器学习模型进行训练并对所述在线机器学习模型进行模型参数更新。

2.根据权利要求1所述的方法，其中，所述流媒体客户端为多个，所述在线机器学习模型也为多个，与所述流媒体客户端对应，多个所述在线机器学习模型使用与所述流媒体客户端对应的流媒体状态数据进行训练。

3.根据权利要求2所述的方法，其中，对所述在线机器学习模型进行模型参数更新包括：

将所述多个在线机器学习模型的训练后的模型参数进行加权平均处理，生成聚合后的模型参数；

使用该聚合后的模型参数，对多个所述在线机器学习模型进行模型参数更新。

4.根据权利要求2所述的方法，其中，对所述在线机器学习模型进行模型参数更新包括：

针对所述多个在线机器学习模型中的指定在线机器学习模型执行如下处理：将所述多个在线机器学习模型的训练后的模型参数进行加权平均处理，生成聚合后的模型参数，其中，所述指定在线机器学习模型对应的权重值大于其他在线机器学习模型的权重值；

使用该聚合后的模型参数，对指定在线机器学习模型进行模型参数更新。

5.根据权利要求1所述的方法，其中，对所述在线机器学习模型进行训练并对所述在线机器学习模型进行模型参数更新包括：

获取所述下一时间段的流媒体状态数据，根据所述下一时间段的流媒体状态数据计算所述当前时间段的流媒体控制信息的奖励数据；

根据多个时间段的奖励数据，计算累积奖励；

使用累积奖励最大化的梯度策略，对所述在线机器学习模型进行训练并对所述在线机器学习模型进行模型参数更新。

6.根据权利要求5所述的方法，其中，多个时间段的所述流媒体状态数据、流媒体控制信息、奖励数据以及累积奖励被记录在数据缓冲区中，

使用累积奖励最大化的梯度策略，对所述在线机器学习模型进行训练并对所述在线机器学习模型进行模型参数更新包括：

当所述数据缓冲区中数据量超过预设阈值时，执行使用累积奖励最大化的梯度策略，对所述在线机器学习模型进行训练并对所述在线机器学习模型进行模型参数更新的处理。

7.根据权利要求5所述的方法，其中，使用累积奖励最大化的梯度策略，对所述在线机器学习模型进行训练并对所述在线机器学习模型进行模型参数更新包括：

在梯度更新的损失函数中，根据预设差异限制阈值，对损失函数中的新模型策略和旧模型策略之间的差异进行判定；

如果所述新模型策略和旧模型策略之间的差异大于所述限制阈值，则移除超出阈值部分对应的梯度损失激励；

使用移除了所述梯度损失激励后的损失函数值，对所述在线机器学习模型进行训练并对所述在线机器学习模型进行模型参数更新。

8.根据权利要求1所述的方法，其中，所述流媒体状态数据包括：流媒体客户端的上报的丢包率、网络延迟、延迟间隔和流媒体吞吐量中的一项或者任意多项。

9.根据权利要求1所述的方法，其中，所述流媒体控制信息包括流媒体处理速率，用于控制流媒体客户端执行流媒体的编码和/或发送的处理。

10.根据权利要求1所述的方法，其中，所述在线机器学习模型为在线强化学习模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司，未经阿里巴巴集团控股有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010880129.1/1.html，转载请声明来源钻瓜专利网。

上一篇：一种双相多功能按摩健身器
下一篇：一种多波段合成的黑碳气溶胶直接辐射效应计算方法

同类专利

专利分类

H04 电通信技术
H04L 数字信息的传输，例如电报通信
H04L29-00 H04L 1/00至H04L 27/00单个组中不包含的装置、设备、电路和系统
H04L29-02 .通信控制；通信处理
H04L29-12 .以数据终端为特征的
H04L29-14 .故障的应对措施
H04L29-04 ..用于多条通信线路的
H04L29-06 ..以协议为特征的

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top