“强化学习”专利关键词查询_检索下载_查询列表_检索列表_行业专利分布_钻瓜专利网

钻瓜专利网为您找到相关结果798149个，建议您升级VIP下载更多相关专利

[发明专利]一种强化学习训练方法及基于强化学习的决策方法-CN202011451511.7有效
发明人：刘震;王闯;周兴;李华 -专利权人：广州优策科技有限公司
申请日： 2020-12-09 - 公布日： 2021-10-15 - 主分类号： G06N3/08 文献下载
摘要：本发明提供一种强化学习训练方法及基于强化学习的决策方法，其中，强化学习模型训练方法，包括如下步骤：获取多组历史状态数据；将每一组历史状态数据输入至强化学习模型，得到初步决策数据；将所述每一组历史状态数据和所述初步决策数据输入至预先建立的贝叶斯神经网络模型，得到状态变化量以及奖励值，所述状态量变化值为当前状态数据与下一状态数据的差值；根据所述每一组历史状态数据以及对应的初步决策数据、状态变化量以及奖励值更新所述强化学习模型的模型参数。通过实施本发明，能够增加强化学习模型训练样本量，提高强化学习效果，提高动态决策规划结果的准确性。
一种强化学习训练方法基于决策

[发明专利]控制方法以及医学系统-CN201910413304.3有效
发明人：彭宇劭;汤凯富;张智威;林轩田 -专利权人：宏达国际电子股份有限公司
申请日： 2019-05-17 - 公布日： 2022-07-26 - 主分类号： G16H50/20 文献下载
摘要：一种强化学习系统的控制方法包含下列步骤。强化学习系统获得有关互动系统的训练数据，互动系统与强化学习智能体互动。训练神经网络模型以最大化强化学习智能体对应多个序列行动所收集到的累积奖励，其中强化学习智能体使用神经网络模型从一系列的多个候选行动中挑选出所述序列行动。在神经网络模型的训练过程中，根据所述序列行动中的症状询问行动与确诊症状之间的比较结果提供累积奖励当中的多个辅助奖励给强化学习智能体。通过提供辅助奖励以鼓励强化学习智能体去选择症状询问行动当中潜在答案较有机会为是的询问行动，借此提高提出关键性询问行动的可能性。本公开还涉及一种医学系统。
控制方法以及医学系统

[发明专利]基于多智能体强化学习的智能电表状态评估方法-CN202210963660.4有效
发明人：申朝晖;郭浩;贾振华;范卫星;李文彪;徐梓皓;薛义飞;王星;张旭东;侯超航;王静瑶;阴欢文 -专利权人：山西虚拟现实产业技术研究院有限公司
申请日： 2022-08-11 - 公布日： 2022-11-29 - 主分类号： G06Q10/04 文献下载
摘要：本发明提供了基于多智能体强化学习的智能电表状态评估方法，属于电力系统状态评估技术领域；解决了传统智能电表状态评估不准确、模型泛用性差的问题；包括：对智能电表的数据进行预处理；构建多智能体强化学习模型：设置强化学习智能体，设置强化学习的状态、动作、决策，设置强化学习的奖惩函数；训练多智能体的强化学习模型：初始化决策矩阵，基于ε‑贪婪算法选择适当的动作，获得环境对智能体的奖惩反馈，通过奖惩反馈更新智能体状态，判断多个智能体是否都获得最优控制策略；将预处理后的数据输入到多智能体强化学习模型中得到智能电表的优化数据，将优化数据作为评价指标得到智能电表的状态评估结果；本发明应用于智能电表状态评估。
基于智能强化学习电表状态评估方法

[发明专利]基于海马回放和深度强化学习的多智能体感知框架-CN202310636538.0在审
发明人：里亚兹乌拉汗;苏丹阿尔玛迪;格兰巴德沙;任晓龙;瑞嘉 -专利权人：电子科技大学长三角研究院（湖州）
申请日： 2023-05-31 - 公布日： 2023-09-29 - 主分类号： G06N3/0442 文献下载
摘要：本发明提供了一种基于海马回放和深度强化学习的多智能体感知框架，包括海马回放模块和深度强化学习模块；所述海马回放模块用于使感知代理端回放过去的经验并从中学习；所述深度强化学习模块用于使代理端学习和适应当前环境将海马特征与深度强化学习相结合，能够模拟海马回放过去经验并利用它们来指导决策，同时融合深度学习算法以提高决策过程的效率。
基于海马回放深度强化学习智能感知框架

[发明专利]基于时序神经通路的深度强化学习模型中毒检测方法及其装置-CN202110648356.6在审
发明人：陈晋音;王雪柯;章燕;胡书隆 -专利权人：浙江工业大学
申请日： 2021-06-10 - 公布日： 2021-08-27 - 主分类号： G06N3/04 文献下载
摘要：本发明公开了一种基于时序神经通路的深度强化学习模型中毒检测方法及其装置，包括：定义深度强化学习的时序神经通路，并依据时序神经通过定义构建包含卷积层和池化层的第一部分、包含全连接层的第二部分的深度强化学习模型的时序神经通路，具体过程为：通过多次查找得到第一部分的Top‑c神经元，该Top‑c神经元与第二部分的所有神经元投入神经元池，依据神经元池构建深度强化学习的时序神经通路；将样本数据输入至深度强化学习模型中，利用构建的时序神经通路的反向传播生成扰动，将扰动添加到输入样本得到中毒样本；将中毒样本输入至深度强化学习模型，依据深度强化学习模型的决策动作变化检测深度强化学习模型是否中毒。
基于时序神经通路深度强化学习模型中毒检测方法及其装置

[发明专利]强化学习系统及训练方法-CN202110265955.X在审
发明人：彭宇劭;汤凯富;张智威 -专利权人：宏达国际电子股份有限公司
申请日： 2021-03-11 - 公布日： 2021-09-14 - 主分类号： G06N20/00 文献下载
摘要：一种训练方法，适用于具有一奖励函数的一强化学习系统去训练一强化学习模型，且包含：定义该奖励函数的至少一奖励条件；决定相对应于该至少一奖励条件的至少一奖励值范围；藉由超参数最佳化演算法从该至少一奖励值范围中搜寻出至少一奖励值；以及根据该至少一奖励值训练该强化学习模型。本公开内容更提供一种强化学习系统用以执行该训练方法。在没有通过实验人工决定精确数值的情况下，强化学习系统可自动地决定与多种奖励条件相对应的多个奖励值。据此，训练强化学习模型的过程或时间可以缩短。藉由自动地决定与多种奖励条件相对应的多个奖励值，经由强化学习系统训练出来的强化学习模型有很大的机会拥有高的成功率，从而能选择合适的动作。
强化学习系统训练方法

[发明专利]基于强化学习的遥感样本迁移方法-CN202210984607.2有效
发明人：彭哲;段红伟;邹圣兵 -专利权人：北京数慧时空信息技术有限公司
申请日： 2022-08-17 - 公布日： 2022-11-01 - 主分类号： G06V20/13 文献下载
摘要：本发明公开一种基于强化学习的遥感样本迁移方法，该方法包括：S1从第一影像和第二影像上分别获取第一样本集和第二样本集；S2构建包括样本筛选模块和任务模块的强化学习模型；S3基于地学知识分别对第一影像和第二影像进行适应性划分，得到第一影像和第二影像的地学参照数据；S4将所述第一样本集、所述第二样本集、第一影像的地学参照数据和第二影像的地学参照数据输入至所述强化学习模型，对所述强化学习模型进行迭代训练，得到训练好的强化学习模型；S5使用所述训练好的强化学习模型的任务模块对第二影像进行任务处理。该方法通过构建强化学习模型，并引入地学知识训练强化学习模型，实现了顾及遥感样本特性的从源域到目标域的样本迁移。
基于强化学习遥感样本迁移方法

[发明专利]一种基于深度强化学习的无人艇航迹控制方法-CN202011353012.4有效
发明人：仲伟波;李浩东;冯友兵;常琦;许强;林伟;孙彬;胡智威;齐国庆 -专利权人：江苏科技大学
申请日： 2020-11-26 - 公布日： 2022-10-25 - 主分类号： G05D1/02 文献下载
摘要：本发明属于无人艇航迹控制领域，公开了一种基于深度强化学习的无人艇航迹控制方法。包括如下步骤：用于具有大迟滞性系统的无人艇航迹控制的深度强化学习框架，通过该深度强化学习框架使无人艇这类大迟滞性的非马尔科夫系统也可通过深度强化学习取得良好的训练效果。
一种基于深度强化学习无人航迹控制方法

[发明专利]强化学习的迁移训练优化方法、装置、终端及存储介质-CN201911057308.9在审
发明人：梁新乐;刘洋;陈天健;董苗波 -专利权人：深圳前海微众银行股份有限公司
申请日： 2019-10-31 - 公布日： 2020-02-07 - 主分类号： G06N20/00 文献下载
摘要：本发明公开了一种强化学习的迁移训练优化方法、装置、终端设备及计算机可读存储介质，通过获取各预设环境的训练设备基于强化学习训练所得到的各训练模型；对各所述训练模型进行联邦处理以生成联邦模型；将所述联邦模型迁移适配至各所述预设环境，以供各所述预设环境的所述训练设备根据所述联邦模型优化强化学习训练。本发明充分利用预设环境中训练设备进行强化训练得到的训练模型，不仅能够很好的保护用户数据隐私，还避免了传统的强化学习训练方式进行强化学习时传输数据的高成本、长时延的问题，优化提升了工业强化学习模型的稳定性和模型训练的整体效率
强化学习预设联邦模型训练模型训练设备计算机可读存储介质迁移优化传输数据工业强化模型训练强化训练用户数据整体效率终端设备长时延传统的适配隐私学习

[发明专利]一种基于深度学习与强化学习的车辆识别方法-CN201610609437.4有效
发明人：孟继成;丁乐乐 -专利权人：电子科技大学
申请日： 2016-07-29 - 公布日： 2019-05-03 - 主分类号： G06K9/32 文献下载
摘要：本发明公开了一种基于深度学习与强化学习的车辆识别方法，在利用深度网络的结构特点上，提供一种深度学习与强化学习结合的方法，将强化学习中的Q‑学习算法应用到深度学习网络中，训练过程仍然使用随机梯度下降算法，提高了深度网络对车辆的识别的能力；其次，加入了基于错分样本学习的强化学习技术，克服了深度学习网络在车辆识别领域现有的技术不足，提升车辆识别性能的同时，也提高了网络的训练效率。
一种基于深度学习强化车辆识别方法

[发明专利]一种实时监测的强化学习可变时长信号灯控制方法-CN202210545093.0有效
发明人：陈铭松;方则宽 -专利权人：华东师范大学
申请日： 2022-05-19 - 公布日： 2023-07-28 - 主分类号： G08G1/01 文献下载
摘要：本发明公开了一种实时监测的强化学习可变时长信号灯控制方法，包括：通过事先安装于道路上的物联网设备采集道路上的实时交通数据生成新定义的压力信息；基于上述各个压力信息设计强化学习方法，生成强化学习状态；在每个路口配置一个强化学习智能体，并且设计一个监视属性，通过所述智能体实时判断当前相位下，路口监视属性是否到达阈值；并根据是否达到阈值确定是否对信号灯的相位进行调整；存储数据并通过强化学习智能体的回放机制来更新网络参数；各个路口配置的强化学习智能体通过当前道路情况控制交通信号灯的相位选择本发明能够提高强化学习代理的学习能力，快速获得优秀的信号灯控制策略，并且控制效果大大提升。
一种实时监测强化学习可变信号灯控制方法

[发明专利]基于联邦强化学习的多路口智能交通信号灯控制方法及系统-CN202110779122.5有效
发明人：陈铭松;叶豫桐;赵吴攀 -专利权人：华东师范大学
申请日： 2021-07-09 - 公布日： 2022-10-25 - 主分类号： G08G1/07 文献下载
摘要：本发明提出了一种基于联邦强化学习的多路口智能交通信号灯控制方法，主要包含以下几方面的内容：步骤1：通过对真实路口的精准建模，使用交通模拟软件Cityflow对城市交通和交通流量进行模拟。步骤2：每个强化学习智能体使用Advantage Actor‑Critic(A2C)强化学习算法，根据路口车流情况对交通信号灯实时控制，每个交叉路口的强化学习智能体由云服务器协调训练；步骤3：提出一种新的基于云‑边协同的联邦强化学习框架；步骤4：引入类似联邦学习的梯度共享与参数传递过程，在强化学习智能体之间实现知识共享。本发明还提出了一种基于联邦强化学习的多路口智能交通信号灯控制系统。本发明法不仅在车辆平均行驶时间方面取得了较好的控制效果，而且能快速收敛到全局最优解。
基于联邦强化学习路口智能交通信号灯控制方法系统

[发明专利]一种强化学习感知的冰壶模拟图像转换真实图像的方法-CN202210229371.1在审
发明人：李宗民;孙文洁;肖倩;孙浩淼;李亚传;王向东 -专利权人：中国石油大学（华东）
申请日： 2022-03-09 - 公布日： 2022-07-05 - 主分类号： G06F30/27 文献下载
摘要：本发明公开了一种强化学习感知的冰壶模拟比赛图像到真实图像转换的方法，属于深度学习领域的人工智能和计算机视觉方向，建立了强化学习感知的任务可知冰壶模拟图像转换模型，主要解决模拟环境中训练的冰壶策略可能与现实不匹配的问题算法主要包括：图像风格转化模块、强化学习约束模块：为模拟图像提供像素级领域自适应,并通过强化学习约束使图像在转换过程中保留强化学习所需的重要属性，实现转化过程的任务可知。这种强化学习感知的冰壶模拟比赛图像到真实图像转换的方法，有效提升了现有的冰壶辅助决策模型的效果，实现成本低，应用范围广。
一种强化学习感知模拟图像转换真实方法

[发明专利]一种基于改进AC算法的强化学习间歇过程控制方法-CN202310533041.6在审
发明人：徐琛;马军伟;毛亚文;陶洪峰 -专利权人：江南大学
申请日： 2023-05-11 - 公布日： 2023-08-01 - 主分类号： G05B13/04 文献下载
摘要：本发明公开了一种基于改进AC算法的强化学习间歇过程控制方法，涉及深度强化学习领域和间歇过程控制领域。该方法将基于强化学习方法的间歇过程控制在马尔科夫决策过程的基础上建模为一个最优控制问题；在强化学习控制器的奖励函数中引入控制动作约束，通过增加有效奖励样本的数目提高强化学习控制器的学习速率，缩短控制周期并在深度强化学习的Actor‑Critic算法中引入优先级采样方法，提出了优先采样的软行动者‑评论家算法，以此来提高算法在经验回放池中的采样效率。
一种基于改进 ac 算法强化学习间歇过程控制方法

[发明专利]一种基于机理模型的故障特征强化学习提取方法-CN202310610846.6在审
发明人：周磊;肖洪;林志富;游瑞;唐轲 -专利权人：西北工业大学
申请日： 2023-05-29 - 公布日： 2023-09-29 - 主分类号： G06F18/213 文献下载
摘要：本发明属于航空发动机故障诊断技术领域，具体涉及一种基于机理模型的故障特征强化学习提取方法。具体技术方案为：构建高精度航空发动机叶片级性能仿真模型，将该模型作为强化学习智能体，搭建强化学习环境，在特定的航空发动机故障环境中训练强化学习模型，当该强化学习模型收敛，提取航空发动机故障特征，构建航空发动机故障特征库该模型能够模拟不同工作叶片故障，支持同一部件内不同级工作叶片故障的模拟与特征增强，实现航空发动机叶片级精细化诊断目标，同时利用强化学习自适应学习故障特征以解决故障样本少、无法得到未知故障特征的问题。
一种基于机理模型故障特征强化学习提取方法