[发明专利]一种基于强化学习的空气源热泵智能除霜新算法在审

申请号：	202310448703.X	申请日：	2023-04-24
公开（公告）号：	CN116957054A	公开（公告）日：	2023-10-27
发明（设计）人：	张博	申请（专利权）人：	张博
主分类号：	G06N3/092	分类号：	G06N3/092;F25B49/00;F25B47/00;G06N3/048
代理公司：	暂无信息	代理人：	暂无信息
地址：	100023 北***	国省代码：	北京;11
权利要求书：	暂无信息	说明书：	暂无信息
摘要：	本专利涉及一种基于强化学习的热泵除霜算法，通过计算机程序的学习与训练，实现在给定的室外、室内环境下，智能体选择最佳行动方案，以实现冷凝器表面无霜无冰的目标。该系统包括智能体（Agent）、环境（Environment）、状态（State）、行动（Action）、奖励（Reward）和目标（Goal）六个方面，根据当前状态选择行动并得到奖励反馈，从而逐步优化选择的策略。本专利的发明可应用于空调、制冷等领域，提高系统的能效性和稳定性。
搜索关键词：	一种基于强化学习空气源热泵智能除霜算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

暂无信息

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于张博，未经张博许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/202310448703.X/，转载请声明来源钻瓜专利网。

上一篇：弹热式热泵和具有弹热式热泵的机动车
下一篇：一种网络安全指数评估方法

同类专利

一种基于强化学习的空气源热泵智能除霜新算法-202310448703.X
发明人：张博 -专利权人：张博
申请日： 2023-04-24 - 公布日： 2023-10-27 - 主分类号： G06N3/092
摘要：本专利涉及一种基于强化学习的热泵除霜算法，通过计算机程序的学习与训练，实现在给定的室外、室内环境下，智能体选择最佳行动方案，以实现冷凝器表面无霜无冰的目标。该系统包括智能体（Agent）、环境（Environment）、状态（State）、行动（Action）、奖励（Reward）和目标（Goal）六个方面，根据当前状态选择行动并得到奖励反馈，从而逐步优化选择的策略。本专利的发明可应用于空调、制冷等领域，提高系统的能效性和稳定性。

使用多模态输入选择动作-202310780609.4
发明人： K·M·赫尔曼;P·布伦森;F·G·希尔 -专利权人：渊慧科技有限公司
申请日： 2018-06-05 - 公布日： 2023-10-27 - 主分类号： G06N3/092
摘要：一种由一个或多个计算机执行的方法，用于选择与环境交互的智能体要执行的动作，所述方法包括：在多个时间步骤中的每一个：接收自然语言的当前文本串，所述当前文本串表达关于由智能体正在执行的当前任务；接收表征环境当前状态的当前观察；使用策略神经网络处理包括当前文本串和当前观察的输入，以生成动作选择输出；以及基于动作选择输出选择智能体在所述时间步骤要执行的动作；其中已经使用强化学习从端到端训练策略神经网络。

基于对偶循环神经网络的序贯决策方法、装置及设备-202310385862.X
发明人：温正棋;黎苏亿 -专利权人：中科极限元（杭州）智能科技股份有限公司
申请日： 2023-04-12 - 公布日： 2023-10-27 - 主分类号： G06N3/092
摘要：本发明公开了一种基于对偶循环神经网络的序贯决策方法、装置及设备，方法包括：对经马尔可夫决策过程建模的策略对抗环境中的每个离散时间步#imgabs0#，接收策略对抗环境在#imgabs1#时刻的当前状态以及多个历史状态，并叠加得到叠加状态；利用对偶循环神经网络对所述叠加状态进行推理，计算出#imgabs2#时刻下的状态价值S及优势动作价值V，并生成每个动作的动作价值Q；基于当前状态，根据动作节点拓扑排序模块通过Min‑Max算法对所有动作进行局部收益计算，并根据所述局部收益以及约束规则生成动作掩码；根据动作价值Q以及动作掩码确定输出至策略对抗环境的最终动作；获取策略对抗环境给予各方的反馈，并进入到下一个离散时间步。本发明通过深度强化学习方法解决序贯决策问题。

基于反馈的模型训练方法、关键词抽取方法及相关设备-202311199088.X
发明人：余梓飞;朵思惟;刘双勇;张程华;薛晨云;张艳丽 -专利权人：天津汇智星源信息技术有限公司
申请日： 2023-09-18 - 公布日： 2023-10-27 - 主分类号： G06N3/092
摘要：本申请提供一种基于反馈的模型训练方法、关键词抽取方法及相关设备，所述模型训练方法包括：获取事件描述文本，将所述事件描述文本分别输入至预先构建的第一语言模型和第二语言模型，通过所述第一语言模型输出第一概率分布和推荐关键词，通过所述第二语言模型输出第二概率分布，其中，所述第一语言模型和所述第二语言模型用于抽取所述事件描述文本中的关键词。基于所述第一概率分布、所述第二概率分布和所述推荐关键词，采用近端策略优化算法构建总损失函数；最小化所述总损失函数以更新所述第一语言模型的模型参数。本申请的模型训练方法能够使推荐关键词更符合人类偏好。

BERT模型的微调方法、装置、设备及存储介质-202310943985.0
发明人：安晓宁 -专利权人：北京天融信网络安全技术有限公司;北京天融信科技有限公司;北京天融信软件有限公司
申请日： 2023-07-28 - 公布日： 2023-10-24 - 主分类号： G06N3/092
摘要：本申请实施例提供一种BERT模型的微调方法、装置、设备及存储介质，涉及计算机技术领域。所述方法包括：根据文本语料生成原始词元列表，并获取所述原始词元列表的词频统计信息；基于所述词频统计信息确定掩码生成策略，并根据所述掩码生成策略对所述原始词元列表进行掩码处理，得到掩码处理结果；基于所述掩码处理结果对预训练的BERT模型进行迭代学习直至满足预设的条件，得到微调BERT模型。本申请通过统计文本语料对应的词频信息，并根据词频自适应调整掩码生成概率，使得不同频率的词元生成的掩码分布更加均匀，更好地保留了文本语料的语义信息，从而提高了BERT模型对掩码语料的学习能力。

一种基于强化学习的模型优化方法、装置、设备及介质-202310927042.9
发明人：姚晓磊 -专利权人：中国银行股份有限公司
申请日： 2023-07-26 - 公布日： 2023-10-24 - 主分类号： G06N3/092
摘要：本申请公开了一种基于强化学习的模型优化方法、装置、设备及介质，可应用于人工智能领域或金融领域。该方法包括：获取待处理的数据加工模型的加工逻辑数据；基于加工逻辑数据构建数据加工模型的加工过程对应的知识图谱；基于知识图谱和注意力机制构建强化学习模型，并基于强化学习模型优化数据加工模型。如此，利用知识图谱技术融合数据加工模型的加工逻辑数据，并结合注意力机制可以构建强化学习模型，该强化模型可以实现自动化、最优化的数据加工模型的优化决策，从而可以有效、稳定地优化数据加工模型，提高数据加工模型的准确率，提升数据加工效果。

深度强化学习模型的处理方法及装置、介质、电子设备-202111061787.9
发明人：洪伟峻;申瑞珉;林悦 -专利权人：网易（杭州）网络有限公司
申请日： 2021-09-10 - 公布日： 2023-10-24 - 主分类号： G06N3/092
摘要：本公开是关于一种深度强化学习模型的处理方法及装置、介质、电子设备，涉及人工智能技术领域，该方法包括：通过模型训练机器对深度强化学习模型进行划分，得到多个模型碎片，并通过模型分发进程将各模型碎片发送至中间节点；通过中间节点对模型碎片进行拼接，得到完整的序列化模型，并将完整的序列化模型发送至交互机器中；通过交互机器对完整的序列化模型进行反序列化处理，得到深度强化学习模型，并通过深度强化学习模型与预设的虚拟环境进行交互，得到训练数据；通过交互机器将训练数据发送至模型训练机器，并通过模型训练机器通过训练数据对深度强化学习模型进行训练。本公开提高了模型的分发效率。

用于稀疏奖励环境的强化学习方法、装置、设备及介质-202110466716.0
发明人：吴天博;王健宗 -专利权人：平安科技（深圳）有限公司
申请日： 2021-04-28 - 公布日： 2023-10-24 - 主分类号： G06N3/092
摘要：本发明公开了一种用于稀疏奖励环境的强化学习方法、装置、设备及介质，所述方法包括：将动作分别与多个当前环境状态进行交互，得到多个下一时刻的环境状态；计算所述下一时刻的环境状态的相似度，得到相似度矩阵；根据所述相似度矩阵判断当前环境状态是否会受到随机噪声的影响；若当前环境状态会受到随机噪声的影响，则通过预设的环境熟悉度模型计算内在奖励值；根据与环境交互产生的经验数据以及计算出来的内在奖励值进行策略的学习。根据本公开实施例提供的强化学习方法，能够在外部奖励比较稀疏或者不存在的情况下快速有效地学习策略。

强化学习模型的训练方法及装置-202311168598.0
发明人：杜梦雪;暴宇健 -专利权人：深圳须弥云图空间科技有限公司
申请日： 2023-09-12 - 公布日： 2023-10-20 - 主分类号： G06N3/092
摘要：本公开涉及计算机技术领域，提供了一种强化学习模型的训练方法及装置。该方法包括：获取使用设定强化学习算法对第一强化学习模型进行训练得到的第二强化学习模型；将相同的训练数据分别输入到第一强化学习模型和第二强化学习模型，对应得到第一输出数据组和第二输出数据组；根据训练数据、第一输出数据组、第二输出数据组和设定的总损失函数获取总损失函数值，其中，总损失函数的自蒸馏损失函数部分根据第一输出数据组和第二输出数据组的距离得到；根据总损失函数值调整第一强化学习模型，直到第一强化学习模型收敛，得到训练好的目标强化学习模型。本公开的技术方案可以提高强化学习模型在实际应用中的泛化能力和可复现性。

用于强化学习的方法及装置-202310896973.7
发明人：蔡天驰;包燊燎 -专利权人：支付宝（杭州）信息技术有限公司
申请日： 2023-07-20 - 公布日： 2023-10-17 - 主分类号： G06N3/092
摘要：本说明书实施例提供了用于强化学习的方法及装置。在该方法中，获取对象数据；得到基于各个初始组数据中的状态和动作所预测的奖励预测值；基于各个初始组数据和奖励预测值进行重构，以得到预测组数据；以及根据预测组数据进行强化学习，以得到由一系列预测动作所构成的策略。

一种基于深度强化学习的无人机数据采集方法-202310325032.8
发明人：汪大海;魏征宇;黄相良;诸加荣;赵勇;韩泽凯;季奕驰;许资来;林易乐 -专利权人：浙江图盛输变电工程有限公司温州科技分公司
申请日： 2023-03-27 - 公布日： 2023-10-17 - 主分类号： G06N3/092
摘要：本发明公开了一种基于深度强化学习的无人机数据采集方法，包括以下步骤：对无人机数据采集函数进行深度强化学习；进行采集函数深度强化学习的决策过程；对采集数据进行误差特性分析与校准。通过深度强化学习，使无人机从感知到对应的决策动作，分析采集环境信息，使用人工智能方法对采集方法进行决策控制，实现无人机的数据采集，并且通过深度卷积神经网络的权值共享和池化等方法，降低算法的复杂度，并有效提取数据特征，同时对于采集数据中存在的传感器静态误差和传感器动态误差针对性地进行校准，增加数据采集准确性。

中间强化学习目标的无监督的检测-201780074215.X
发明人：皮埃尔·塞马内 -专利权人：谷歌有限责任公司
申请日： 2017-11-06 - 公布日： 2023-10-13 - 主分类号： G06N3/092
摘要：用于检测中间强化学习目标的方法、系统和装置，包括在计算机存储介质上编码的计算机程序。方法之一包括：获得多个演示序列，每个演示序列是在正在执行强化学习任务的相应实例的时的环境的图像序列；对于每个演示序列，通过图像处理神经网络处理演示序列中的每个图像，以确定图像的相应的特征集合的特征值；根据演示序列确定将强化学习任务分区为多个子任务，其中，每个演示序列中的每个图像被分配给多个子任务中的相应子任务；并且，根据演示序列中的图像的特征值，确定多个子任务中的每一个的相应的区别特征集合。

一种基于强化学习的自动驾驶决策不确定性估计方法-202311055832.9
发明人：邹倩颖;廖员 -专利权人：四川吉利学院
申请日： 2023-08-22 - 公布日： 2023-10-10 - 主分类号： G06N3/092
摘要：本发明公开一种基于强化学习的自动驾驶决策不确定性估计方法，涉及自动驾驶技术领域，包括如下步骤：获取智能体相关数据，构建MDP模型；构建神经网络模型集合；构建神经网络模型集合，将状态s输入神经网络模型以获得行动‑价值函数Q；智能体根据Q值选择最优行动，实现不确定性估计或自主驾驶决策；在以往的研究中，通过强化学习训练出的智能体能够在接近训练数据的情况下做出合理的决策，这在一定程度上验证了强化学习技术在决策制定上的有效性；本发明方法不仅能够有效地估计推荐行动的不确定性，而且能够根据这种不确定性估计在面临未知情况时选择风险较小的行动；这一特性使其在处理自动驾驶等需要面临复杂、不确定环境的任务时具有显著优势。

基于仿人脑认知计算模型的机器人复杂任务学习算法-202310769363.0
发明人：瞿心昱;白继平;窦慧丽;周微 -专利权人：浙江交通职业技术学院
申请日： 2023-06-28 - 公布日： 2023-10-10 - 主分类号： G06N3/092
摘要：本发明涉及一种基于仿人脑认知计算模型的机器人复杂任务学习算法，本发明从感知知识自主学习感知‑动作映射知识，然后再拓展到对感知‑动作映射序列的自主学习，并通过感知‑动作映射序列经验来实现对复杂任务的执行。实现机器人在认知计算模型及其学习方法的引导下发育智能，执行非特定任务，适应多变环境，解决传统方法的局限，将内部动机Q学习方式引入感知‑动作对的增量学习，将感知‑动作知识的学习过程和回忆过程同时进行，同时自主学习更为复杂的知识和经验，完成非特定任务，即使得智能体能够在已学习的感知知识和感知‑动作映射知识的基础上学习更为复杂的非特定任务执行方法，获得更为复杂的经验和能力。

一种提高强化学习系统吞吐量的方法-202310419113.4
发明人：赵来平;辛宇嵩;赵志新;代心安;胡一涛;李克秋 -专利权人：天津大学
申请日： 2023-04-19 - 公布日： 2023-10-10 - 主分类号： G06N3/092
摘要：本发明公开了一种提高强化学习系统吞吐量的方法，包括以下步骤：启动RL训练任务，协调器根据任务配置和硬件信息推导出最佳全局配置，然后启动流水线采样器、量化器和训练器；采样器进行基于组的并行流水线采样并收集一定数量的轨迹；轨迹被消息代理收集并分布到若干个训练器中，负责消息序列化和传播；训练器和预测器使用接收到的轨迹来训练和评估模型，并将更新后的模型权重发送到量化器进行权重量化；量化器通过消息代理向每个采样器中的代理发送量化的模型权重，以进行下一轮采样和训练。本发明可全面地提高强化学习系统的吞吐量，能够及时地发现和识别采样、训练和通信阶段的瓶颈，并采用协同优化技术提高了吞吐量，吞吐量高达90.6％。

一种智能车间数据采集分析方法、装置及计算机设备-202310901511.X
发明人：孙朝阳;董德;卢金平;周齐芳;王婷;王进龙 -专利权人：威海瑞沐精工科技有限公司
申请日： 2023-07-21 - 公布日： 2023-10-10 - 主分类号： G06N3/092
摘要：本申请涉及数据处理、机器学习领域，并且更具体地涉及一种智能车间数据采集分析方法、装置及计算机设备，所述方法包括：获取车间物联网数据集，抽取多层级的生产状态表征向量，获取在预设模糊数据模板中抽取的多层级的模板表征向量，将多层级的生产状态表征向量和特征强化参考信息作为模板表征向量嵌入映射的参考信息，依据对应层级的生产状态表征向量和特征强化参考信息对对应的层级下的模板表征向量进行嵌入映射，生成数据集表征向量。此外，生产状态和强化特征整合得到的特征强化结果更能维持和突出生产状态的特征信息。嵌入映射得到整合了不同层级的生产状态表征向量和该强化特征的数据集表征向量，聚焦不同尺度的生产状态信息。

一种虚实无缝迁移方法、系统、电子设备及介质-202310808639.1
发明人：骆祥峰;张朕煜;谢少荣;王欣芝;逄涛;徐宏;高明柯 -专利权人：上海大学;华东计算技术研究所（中国电子科技集团公司第三十二研究所）
申请日： 2023-07-03 - 公布日： 2023-10-03 - 主分类号： G06N3/092
摘要：本发明公开一种虚实无缝迁移方法、系统、电子设备及介质，涉及表征学习和强化学习领域，该方法包括：获取虚拟环境下智能体与环境的交互数据；对当前状态的观测进行数据增强；将增强后的观测输入孪生表征网络进行降维，得到向量化状态数据；将向量化状态数据和对应的动作输入孪生价值网络，得到对应的价值；根据向量化状态数据、对应的价值和下一状态的观测，构造表征损失函数；根据表征损失函数，应用梯度下降法，对孪生表征网络、孪生价值网络和决策网络进行训练；当总的训练次数大于预设阈值时，得到训练好的表征网络和决策网络，根据真实环境下的当前状态的观测得到响应于真实环境下的动作。本发明能够提高策略的泛化性能。

一种基于深度强化学习的自动驾驶策略学习方法-202310863710.6
发明人：张浩;汤书宁;邹亚杰;杨小雪 -专利权人：同济大学
申请日： 2023-07-14 - 公布日： 2023-10-03 - 主分类号： G06N3/092
摘要：本发明提供一种基于深度强化学习的自动驾驶策略学习方法，属于强化学习和自动驾驶领域，包括如下步骤：1)基于Gym库搭建可以与强化学习算法进行交互的自动驾驶数值仿真环境；2)设计自动驾驶策略学习任务的奖励函数，奖励函数包括跟驰奖励、换道奖励、安全奖励和车道保持奖励；3)设计状态空间，强化学习算法的状态空间包括主车的信息和主车周围四辆车的信息；4)设计动作空间，包括一个离散型动作和两个连续型动作；5)调整P‑DQN算法的网络结构和超参数，训练算法到达收敛。与现有技术相比，本发明使用具有混合动作空间的P‑DQN算法学习自动驾驶策略，不需要简化原有的动作空间，因此P‑DQN算法有着更好的稳定性和更高的学习效率。

一种移动边缘计算网络下基于强化学习的联邦学习方法、系统及介质-202310580633.3
发明人：李秀华;徐国增;李辉;郝金隆;程路熙;蔡春茂;范琪琳;杨正益 -专利权人：重庆大学
申请日： 2023-05-22 - 公布日： 2023-10-03 - 主分类号： G06N3/092
摘要：本发明公开一种移动边缘计算网络下基于强化学习的联邦学习方法、系统及介质，方法步骤为：所述边缘服务器通过基站将待训练的机器学习模型下载至用户设备；每个用户设备利用本地数据对机器学习模型进行训练，获得机器学习模型参数wi(k)，并通过基站上传到边缘服务器中；根据待聚合设备的本地数据量，所述边缘服务器对所有待聚合设备的机器学习模型参数进行聚合，得到机器学习模型参数聚合值#imgabs0#并通过基站下载至加入联邦学习的用户设备；系统包括边缘服务器和用户设备。介质存储有计算机程序。本发明综合考虑联邦学习过程中的能量消耗和任务模型的损失函数值来优化联邦聚合策略，在保证任务模型精度的同时减少能量的消耗。

一种基于GRU动作价值神经网络的多智能体任务分配方法-202310789070.9
发明人：张德平;钟孙健 -专利权人：南京航空航天大学
申请日： 2023-06-29 - 公布日： 2023-10-03 - 主分类号： G06N3/092
摘要：本发明涉及多智能体强化学习技术领域，具体公开了一种基于GRU动作价值神经网络的多智能体任务分配方法，包括：对每个智能体使用同一策略网络并通过无效动作遮掩过滤机制获得当前时间步执行动作，与仿真环境交互，通过改进后的动作价值网络计算该动作的动作价值；将所有智能体的动作价值通过一个混合网络生成唯一的联合动作价值；并将通过联合动作价值计算得到的延迟奖励值和联合动作以四元组的形式(s,a,r,s’)存储在经验回放池中；将经验数据根据情景记录控制规则，存储当前状态s的最大记录回报值在情景记录表中；本发明还提供推演方法，不仅可以算法减少陷入局部次优的可能，还可以缩短训练时间，提高任务成功率。

基于动态噪声网络的深度强化学习探索方法及组件-202311103323.9
发明人：路圣汉 -专利权人：北京汉勃科技有限公司
申请日： 2023-08-30 - 公布日： 2023-09-29 - 主分类号： G06N3/092
摘要：本发明涉及深度强化学习探索技术领域，提供一种基于动态噪声网络的深度强化学习探索方法及组件，该方法包括：初始化智能体深度强化学习模型的参数和仿真环境，元策略网络和元价值网络的最后一层均为噪声线性层；智能体深度强化学习模型与仿真环境交互训练，并将交互训练的数据存入数据收集列表；根据数据收集列表更新智能体深度强化学习模型的参数；在数据收集列表收集的数据量满足第一预设数据阈值时，深度强化学习探索迭代完成。本发明在元策略网络和元价值网络中引入了噪声，使其生成更多样化的网络参数，提高智能体的行为多样性，从而有效提高智能体的探索效率。

多智能体环境中持续学习方法、设备、存储介质及产品-202311087752.1
发明人：路圣汉 -专利权人：北京汉勃科技有限公司
申请日： 2023-08-28 - 公布日： 2023-09-26 - 主分类号： G06N3/092
摘要：本发明涉及智能体技术领域，提供一种多智能体环境中持续学习方法、设备、存储介质及产品，该方法包括：在学习目标任务时，确定目标任务对多智能体网络模型参数的影响程度；多智能体网络模型包括值函数网络模型和超网络模型；根据模型参数的影响程度对多智能体网络模型的参数进行损失约束。本发明在进行目标任务的学习训练时，对多智能体网络模型的参数进行损失约束，从而减少多智能体网络模型的参数在目标任务学习中变化，在更高效的学习目标任务知识的同时减少当前任务知识产生灾难性遗忘，实现在多智能体环境中多个任务的可持续学习。

一种面向连续控制问题的安全强化学习方法-202310814726.8
发明人：杨志斌;肖应民;周勇 -专利权人：南京航空航天大学
申请日： 2023-07-05 - 公布日： 2023-09-22 - 主分类号： G06N3/092
摘要：本发明公开了一种面向连续控制问题的安全强化学习方法。使用概率集成模型近似动态环境，表征环境的认知不确定性和偶然不确定性；设计一种以危险惩罚机制为核心的安全策略优化方法，通过增大执行不安全动作的代价使得安全动作的价值高于不安全动作的价值，并将该安全策略优化方法与基于模型的强化学习相结合，理论证明算法的收敛性与安全性；设计模型预测屏蔽算法，在智能体与环境交互的过程中使用模型预测控制作为潜在的屏蔽层，过滤高风险动作，选择高价值动作。通过仿真实验表明，本发明提出面向连续控制问题的安全强化学习方法在保持安全性的同时实现了较好的性能。

使用分布式优先化回放的强化学习-201880068801.8
发明人： D.巴登;G.巴特马伦;J.全;D.G.霍根 -专利权人：渊慧科技有限公司
申请日： 2018-10-29 - 公布日： 2023-09-22 - 主分类号： G06N3/092
摘要：方法、系统和装置，包括编码在计算机存储介质上的计算机程序，用于训练动作选择神经网络，该动作选择神经网络用于选择要由与环境交互的智能体执行的动作。该系统之一包括(i)多个行动者计算单元，其中每个行动者计算单元被配置为维护动作选择神经网络的相应副本并执行多个行动者操作，以及(ii)一个多个学习者计算单元，其中一个或多个学习者计算单元中的每一个被配置为执行多个学习者操作。

图像分类网络的训练方法、装置、计算机设备和存储介质-202310753848.0
发明人：孙震;郑晓雪;范琪 -专利权人：中国工商银行股份有限公司
申请日： 2023-06-26 - 公布日： 2023-09-19 - 主分类号： G06N3/092
摘要：本申请涉及一种图像分类网络的训练方法、装置、计算机设备和存储介质。本申请涉及图像处理和人工智能技术领域。方法包括：获取多个攻击算法对应的对抗样本，并计算每个攻击算法对应的图像分类网络的图像分类结果；基于图像分类结果中的分类成功率，在各攻击算法中，筛选初始目标攻击算法，并调整初始目标攻击算法的攻击参数；基于已调整的初始目标攻击算法，攻击图像分类网络，得到图像分类网络的新图像分类结果，并通过网络评价函数，评价图像分类网络的评价值；通过评价值训练初始目标攻击算法，得到目标攻击算法，并通过目标攻击算法训练图像分类网络，得到目标图像分类网络。采用本方法能够提升训练的深度学习神经网络的防御效果。

强化学习数据采样方法、系统、设备和存储介质-202310619912.6
发明人：张超;陈楚凡;张云淞;钱徽 -专利权人：浙江大学
申请日： 2023-05-29 - 公布日： 2023-09-19 - 主分类号： G06N3/092
摘要：本申请涉及一种强化学习数据采样方法、系统、设备和存储介质，通过中心节点获取环境交互节点生成的环境状态样本，将环境状态样本存储至经验集，将环境状态样本发送至动作计算节点，接收并存储动作计算节点生成的动作样本，将动作样本发送至环境交互接单，继续接收并处理环境交互节点根据动作样本进行更新后的环境状态样本，并根据环境状态样本与动作样本生成轨迹样本，当经验集存储的轨迹样本的数量达到第一阈值时，将轨迹样本发送至策略更新节点，策略更新节点根据轨迹样本对模型进行优化，并将优化后的模型参数发送至动作计算节点，保证了各种节点信息的高效读写，解决了相关技术中强化学习在计算资源有限的情况下采样效率较低的问题。

针对对抗场景下不确定性辅助任务的分层强化学习方法-202310637974.X
发明人：蒋嶷川;陈文博;姜元爽;狄凯 -专利权人：东南大学
申请日： 2023-05-31 - 公布日： 2023-09-19 - 主分类号： G06N3/092
摘要：本发明提出了针对对抗场景下不确定性辅助任务的分层强化学习方法。首先进行上层的任务分配阶段，智能体先获取全局环境信息，然后提取出其中对自身重要的辅助任务信息，再基于此提取出重要的主要任务信息，最后结合其它智能体的信息学习出任务分配策略；然后进行下层的任务执行阶段，智能体先根据分配结果构建专属子环境，然后在子环境内学习出任务执行顺序，最后执行具体动作。本专利提出的分层强化学习算法可以更高效地帮助多智能体系统学习如何执行不确定辅助任务，通过先学习上层的多智能体不确定辅助任务分配策略，再学习下层的单智能体不确定辅助任务执行策略，分别解决不确定辅助任务对群体和个体的影响，可以有效降低问题的复杂度。

用于分布式强化学习的方法、程序产品和存储介质-202310685965.8
发明人： W·C·达布尼;M·金德罗-贝尔-梅尔 -专利权人：渊慧科技有限公司
申请日： 2018-04-16 - 公布日： 2023-09-19 - 主分类号： G06N3/092
摘要：方法、系统和设备，包括在计算机存储介质上编码的计算机程序，以选择由与环境交互的强化学习智能体要执行的动作。接收表征环境的当前状态的当前观察。对于可以由与环境交互的智能体执行的多个动作的集合中的每个动作，确定针对动作–当前观察对的可能的Q回报之上的概率分布。对于每个动作，确定相对于针对动作–当前观察对的概率分布的可能的Q回报的集中趋势的度量。使用集中趋势的度量，选择响应于当前观察将由智能体执行的动作。

一种自适应频率绿灯优化速度咨询模型学习系统及方法-202310727528.8
发明人：许明;左东宇;张晶 -专利权人：辽宁工程技术大学
申请日： 2023-06-19 - 公布日： 2023-09-19 - 主分类号： G06N3/092
摘要：本发明公开了一种自适应频率绿灯优化速度咨询模型学习系统及方法，包括交通信息获取模块、强化学习模块、奖励函数模块，所述交通信息获取模块的数据输出端与所述强化学习模块的数据输入端连接，所述强化学习模块的数据输出端与所述奖励函数模块的数据输入端连接；所述强化学习模块包括混合Actor网络和Critic网络；该系统及方法将速度咨询的频次转化为一系列自适应决策，并使用基于学习的方法从观察到的状态信息中学习相关特征，这使得车辆能够动态调整其驾驶状态，当交通场景发生变化时，车辆也可以及时调整行驶状态；本系统及方法可以根据动态交通流动态调整速度咨询频次，可以很好的适应交通的动态性和复杂性。

一种基于迁移强化学习的交通信号灯控制方法-202310489368.8
发明人：张程伟;刘欣;李一鸿 -专利权人：大连海事大学
申请日： 2023-04-28 - 公布日： 2023-09-15 - 主分类号： G06N3/092
摘要：本发明公开了一种基于迁移强化学习的交通信号灯控制方法，涉及智能交通控制技术领域，本发明设计的基于模型的预训练算法，可以对下一状态的观测进行预测，为实现多交叉口之间的协作和知识共享，使用图卷积网络来获取当前路口及其邻居路口的特征信息，并且使用多头注意力机制来确定不同路口对当前路口的影响程度，从而更好地反映交通流的特征和规律。当训练新的路口时，利用预训练阶段训练的源策略来加速训练过程，使用概率分布的方式来选择最适合当前环境的源策略，能够在短时间内找到最佳的源策略，大大提高了数据效率，并降低了训练成本。本发明有效解决了当前一些基于深度强学习的交通信号控制算法存在的数据效率低、训练成本高等问题。

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于强化学习的空气源热泵智能除霜新算法在审

专利文献下载