专利名称
主分类
A 农业
B 作业;运输
C 化学;冶金
D 纺织;造纸
E 固定建筑物
F 机械工程、照明、加热
G 物理
H 电学
专利下载VIP
公布日期
2023-10-24 公布专利
2023-10-20 公布专利
2023-10-17 公布专利
2023-10-13 公布专利
2023-10-10 公布专利
2023-10-03 公布专利
2023-09-29 公布专利
2023-09-26 公布专利
2023-09-22 公布专利
2023-09-19 公布专利
更多 »
专利权人
国家电网公司
华为技术有限公司
浙江大学
中兴通讯股份有限公司
三星电子株式会社
中国石油化工股份有限公司
清华大学
鸿海精密工业股份有限公司
松下电器产业株式会社
上海交通大学
更多 »
钻瓜专利网为您找到相关结果131个,建议您升级VIP下载更多相关专利
  • [发明专利]使用多模态输入选择动作-CN202310780609.4在审
  • K·M·赫尔曼;P·布伦森;F·G·希尔 - 渊慧科技有限公司
  • 2018-06-05 - 2023-10-27 - G06N3/092
  • 一种由一个或多个计算机执行的方法,用于选择与环境交互的智能体要执行的动作,所述方法包括:在多个时间步骤中的每一个:接收自然语言的当前文本串,所述当前文本串表达关于由智能体正在执行的当前任务;接收表征环境当前状态的当前观察;使用策略神经网络处理包括当前文本串和当前观察的输入,以生成动作选择输出;以及基于动作选择输出选择智能体在所述时间步骤要执行的动作;其中已经使用强化学习从端到端训练策略神经网络。
  • 使用多模态输入选择动作
  • [发明专利]基于对偶循环神经网络的序贯决策方法、装置及设备-CN202310385862.X在审
  • 温正棋;黎苏亿 - 中科极限元(杭州)智能科技股份有限公司
  • 2023-04-12 - 2023-10-27 - G06N3/092
  • 本发明公开了一种基于对偶循环神经网络的序贯决策方法、装置及设备,方法包括:对经马尔可夫决策过程建模的策略对抗环境中的每个离散时间步#imgabs0#,接收策略对抗环境在#imgabs1#时刻的当前状态以及多个历史状态,并叠加得到叠加状态;利用对偶循环神经网络对所述叠加状态进行推理,计算出#imgabs2#时刻下的状态价值S及优势动作价值V,并生成每个动作的动作价值Q;基于当前状态,根据动作节点拓扑排序模块通过Min‑Max算法对所有动作进行局部收益计算,并根据所述局部收益以及约束规则生成动作掩码;根据动作价值Q以及动作掩码确定输出至策略对抗环境的最终动作;获取策略对抗环境给予各方的反馈,并进入到下一个离散时间步。本发明通过深度强化学习方法解决序贯决策问题。
  • 基于对偶循环神经网络决策方法装置设备
  • [发明专利]一种基于强化学习的模型优化方法、装置、设备及介质-CN202310927042.9在审
  • 姚晓磊 - 中国银行股份有限公司
  • 2023-07-26 - 2023-10-24 - G06N3/092
  • 本申请公开了一种基于强化学习的模型优化方法、装置、设备及介质,可应用于人工智能领域或金融领域。该方法包括:获取待处理的数据加工模型的加工逻辑数据;基于加工逻辑数据构建数据加工模型的加工过程对应的知识图谱;基于知识图谱和注意力机制构建强化学习模型,并基于强化学习模型优化数据加工模型。如此,利用知识图谱技术融合数据加工模型的加工逻辑数据,并结合注意力机制可以构建强化学习模型,该强化模型可以实现自动化、最优化的数据加工模型的优化决策,从而可以有效、稳定地优化数据加工模型,提高数据加工模型的准确率,提升数据加工效果。
  • 一种基于强化学习模型优化方法装置设备介质
  • [发明专利]深度强化学习模型的处理方法及装置、介质、电子设备-CN202111061787.9有效
  • 洪伟峻;申瑞珉;林悦 - 网易(杭州)网络有限公司
  • 2021-09-10 - 2023-10-24 - G06N3/092
  • 本公开是关于一种深度强化学习模型的处理方法及装置、介质、电子设备,涉及人工智能技术领域,该方法包括:通过模型训练机器对深度强化学习模型进行划分,得到多个模型碎片,并通过模型分发进程将各模型碎片发送至中间节点;通过中间节点对模型碎片进行拼接,得到完整的序列化模型,并将完整的序列化模型发送至交互机器中;通过交互机器对完整的序列化模型进行反序列化处理,得到深度强化学习模型,并通过深度强化学习模型与预设的虚拟环境进行交互,得到训练数据;通过交互机器将训练数据发送至模型训练机器,并通过模型训练机器通过训练数据对深度强化学习模型进行训练。本公开提高了模型的分发效率。
  • 深度强化学习模型处理方法装置介质电子设备
  • [发明专利]强化学习模型的训练方法及装置-CN202311168598.0在审
  • 杜梦雪;暴宇健 - 深圳须弥云图空间科技有限公司
  • 2023-09-12 - 2023-10-20 - G06N3/092
  • 本公开涉及计算机技术领域,提供了一种强化学习模型的训练方法及装置。该方法包括:获取使用设定强化学习算法对第一强化学习模型进行训练得到的第二强化学习模型;将相同的训练数据分别输入到第一强化学习模型和第二强化学习模型,对应得到第一输出数据组和第二输出数据组;根据训练数据、第一输出数据组、第二输出数据组和设定的总损失函数获取总损失函数值,其中,总损失函数的自蒸馏损失函数部分根据第一输出数据组和第二输出数据组的距离得到;根据总损失函数值调整第一强化学习模型,直到第一强化学习模型收敛,得到训练好的目标强化学习模型。本公开的技术方案可以提高强化学习模型在实际应用中的泛化能力和可复现性。
  • 强化学习模型训练方法装置
  • [发明专利]中间强化学习目标的无监督的检测-CN201780074215.X有效
  • 皮埃尔·塞马内 - 谷歌有限责任公司
  • 2017-11-06 - 2023-10-13 - G06N3/092
  • 用于检测中间强化学习目标的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。方法之一包括:获得多个演示序列,每个演示序列是在正在执行强化学习任务的相应实例的时的环境的图像序列;对于每个演示序列,通过图像处理神经网络处理演示序列中的每个图像,以确定图像的相应的特征集合的特征值;根据演示序列确定将强化学习任务分区为多个子任务,其中,每个演示序列中的每个图像被分配给多个子任务中的相应子任务;并且,根据演示序列中的图像的特征值,确定多个子任务中的每一个的相应的区别特征集合。
  • 中间强化学习目标监督检测
  • [发明专利]一种基于强化学习的自动驾驶决策不确定性估计方法-CN202311055832.9在审
  • 邹倩颖;廖员 - 四川吉利学院
  • 2023-08-22 - 2023-10-10 - G06N3/092
  • 本发明公开一种基于强化学习的自动驾驶决策不确定性估计方法,涉及自动驾驶技术领域,包括如下步骤:获取智能体相关数据,构建MDP模型;构建神经网络模型集合;构建神经网络模型集合,将状态s输入神经网络模型以获得行动‑价值函数Q;智能体根据Q值选择最优行动,实现不确定性估计或自主驾驶决策;在以往的研究中,通过强化学习训练出的智能体能够在接近训练数据的情况下做出合理的决策,这在一定程度上验证了强化学习技术在决策制定上的有效性;本发明方法不仅能够有效地估计推荐行动的不确定性,而且能够根据这种不确定性估计在面临未知情况时选择风险较小的行动;这一特性使其在处理自动驾驶等需要面临复杂、不确定环境的任务时具有显著优势。
  • 一种基于强化学习自动驾驶决策不确定性估计方法
  • [发明专利]基于仿人脑认知计算模型的机器人复杂任务学习算法-CN202310769363.0在审
  • 瞿心昱;白继平;窦慧丽;周微 - 浙江交通职业技术学院
  • 2023-06-28 - 2023-10-10 - G06N3/092
  • 本发明涉及一种基于仿人脑认知计算模型的机器人复杂任务学习算法,本发明从感知知识自主学习感知‑动作映射知识,然后再拓展到对感知‑动作映射序列的自主学习,并通过感知‑动作映射序列经验来实现对复杂任务的执行。实现机器人在认知计算模型及其学习方法的引导下发育智能,执行非特定任务,适应多变环境,解决传统方法的局限,将内部动机Q学习方式引入感知‑动作对的增量学习,将感知‑动作知识的学习过程和回忆过程同时进行,同时自主学习更为复杂的知识和经验,完成非特定任务,即使得智能体能够在已学习的感知知识和感知‑动作映射知识的基础上学习更为复杂的非特定任务执行方法,获得更为复杂的经验和能力。
  • 基于人脑认知计算模型机器人复杂任务学习算法
  • [发明专利]一种提高强化学习系统吞吐量的方法-CN202310419113.4有效
  • 赵来平;辛宇嵩;赵志新;代心安;胡一涛;李克秋 - 天津大学
  • 2023-04-19 - 2023-10-10 - G06N3/092
  • 本发明公开了一种提高强化学习系统吞吐量的方法,包括以下步骤:启动RL训练任务,协调器根据任务配置和硬件信息推导出最佳全局配置,然后启动流水线采样器、量化器和训练器;采样器进行基于组的并行流水线采样并收集一定数量的轨迹;轨迹被消息代理收集并分布到若干个训练器中,负责消息序列化和传播;训练器和预测器使用接收到的轨迹来训练和评估模型,并将更新后的模型权重发送到量化器进行权重量化;量化器通过消息代理向每个采样器中的代理发送量化的模型权重,以进行下一轮采样和训练。本发明可全面地提高强化学习系统的吞吐量,能够及时地发现和识别采样、训练和通信阶段的瓶颈,并采用协同优化技术提高了吞吐量,吞吐量高达90.6%。
  • 一种提高强化学习系统吞吐量方法

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top