“G06N3/092”专利分类搜索_专利查询_文献下载_出售_求购_买卖_交易

钻瓜专利网为您找到相关结果131个，建议您升级VIP下载更多相关专利

[发明专利]一种基于强化学习的空气源热泵智能除霜新算法-CN202310448703.X在审
发明人：张博 -专利权人：张博
申请日： 2023-04-24 - 公布日： 2023-10-27 - 主分类号： G06N3/092 文献下载
摘要：本专利涉及一种基于强化学习的热泵除霜算法，通过计算机程序的学习与训练，实现在给定的室外、室内环境下，智能体选择最佳行动方案，以实现冷凝器表面无霜无冰的目标。该系统包括智能体（Agent）、环境（Environment）、状态（State）、行动（Action）、奖励（Reward）和目标（Goal）六个方面，根据当前状态选择行动并得到奖励反馈，从而逐步优化选择的策略。本专利的发明可应用于空调、制冷等领域，提高系统的能效性和稳定性。
一种基于强化学习空气源热泵智能除霜算法

[发明专利]使用多模态输入选择动作-CN202310780609.4在审
发明人： K·M·赫尔曼;P·布伦森;F·G·希尔 -专利权人：渊慧科技有限公司
申请日： 2018-06-05 - 公布日： 2023-10-27 - 主分类号： G06N3/092 文献下载
摘要：一种由一个或多个计算机执行的方法，用于选择与环境交互的智能体要执行的动作，所述方法包括：在多个时间步骤中的每一个：接收自然语言的当前文本串，所述当前文本串表达关于由智能体正在执行的当前任务；接收表征环境当前状态的当前观察；使用策略神经网络处理包括当前文本串和当前观察的输入，以生成动作选择输出；以及基于动作选择输出选择智能体在所述时间步骤要执行的动作；其中已经使用强化学习从端到端训练策略神经网络。
使用多模态输入选择动作

[发明专利]基于对偶循环神经网络的序贯决策方法、装置及设备-CN202310385862.X在审
发明人：温正棋;黎苏亿 -专利权人：中科极限元（杭州）智能科技股份有限公司
申请日： 2023-04-12 - 公布日： 2023-10-27 - 主分类号： G06N3/092 文献下载
摘要：本发明公开了一种基于对偶循环神经网络的序贯决策方法、装置及设备，方法包括：对经马尔可夫决策过程建模的策略对抗环境中的每个离散时间步#imgabs0#，接收策略对抗环境在#imgabs1#时刻的当前状态以及多个历史状态，并叠加得到叠加状态；利用对偶循环神经网络对所述叠加状态进行推理，计算出#imgabs2#时刻下的状态价值S及优势动作价值V，并生成每个动作的动作价值Q；基于当前状态，根据动作节点拓扑排序模块通过Min‑Max算法对所有动作进行局部收益计算，并根据所述局部收益以及约束规则生成动作掩码；根据动作价值Q以及动作掩码确定输出至策略对抗环境的最终动作；获取策略对抗环境给予各方的反馈，并进入到下一个离散时间步。本发明通过深度强化学习方法解决序贯决策问题。
基于对偶循环神经网络决策方法装置设备

[发明专利]基于反馈的模型训练方法、关键词抽取方法及相关设备-CN202311199088.X在审
发明人：余梓飞;朵思惟;刘双勇;张程华;薛晨云;张艳丽 -专利权人：天津汇智星源信息技术有限公司
申请日： 2023-09-18 - 公布日： 2023-10-27 - 主分类号： G06N3/092 文献下载
摘要：本申请提供一种基于反馈的模型训练方法、关键词抽取方法及相关设备，所述模型训练方法包括：获取事件描述文本，将所述事件描述文本分别输入至预先构建的第一语言模型和第二语言模型，通过所述第一语言模型输出第一概率分布和推荐关键词，通过所述第二语言模型输出第二概率分布，其中，所述第一语言模型和所述第二语言模型用于抽取所述事件描述文本中的关键词。基于所述第一概率分布、所述第二概率分布和所述推荐关键词，采用近端策略优化算法构建总损失函数；最小化所述总损失函数以更新所述第一语言模型的模型参数。本申请的模型训练方法能够使推荐关键词更符合人类偏好。
基于反馈模型训练方法关键词抽取相关设备

[发明专利]BERT模型的微调方法、装置、设备及存储介质-CN202310943985.0在审
发明人：安晓宁 -专利权人：北京天融信网络安全技术有限公司;北京天融信科技有限公司;北京天融信软件有限公司
申请日： 2023-07-28 - 公布日： 2023-10-24 - 主分类号： G06N3/092 文献下载
摘要：本申请实施例提供一种BERT模型的微调方法、装置、设备及存储介质，涉及计算机技术领域。所述方法包括：根据文本语料生成原始词元列表，并获取所述原始词元列表的词频统计信息；基于所述词频统计信息确定掩码生成策略，并根据所述掩码生成策略对所述原始词元列表进行掩码处理，得到掩码处理结果；基于所述掩码处理结果对预训练的BERT模型进行迭代学习直至满足预设的条件，得到微调BERT模型。本申请通过统计文本语料对应的词频信息，并根据词频自适应调整掩码生成概率，使得不同频率的词元生成的掩码分布更加均匀，更好地保留了文本语料的语义信息，从而提高了BERT模型对掩码语料的学习能力。
bert 模型微调方法装置设备存储介质

[发明专利]一种基于强化学习的模型优化方法、装置、设备及介质-CN202310927042.9在审
发明人：姚晓磊 -专利权人：中国银行股份有限公司
申请日： 2023-07-26 - 公布日： 2023-10-24 - 主分类号： G06N3/092 文献下载
摘要：本申请公开了一种基于强化学习的模型优化方法、装置、设备及介质，可应用于人工智能领域或金融领域。该方法包括：获取待处理的数据加工模型的加工逻辑数据；基于加工逻辑数据构建数据加工模型的加工过程对应的知识图谱；基于知识图谱和注意力机制构建强化学习模型，并基于强化学习模型优化数据加工模型。如此，利用知识图谱技术融合数据加工模型的加工逻辑数据，并结合注意力机制可以构建强化学习模型，该强化模型可以实现自动化、最优化的数据加工模型的优化决策，从而可以有效、稳定地优化数据加工模型，提高数据加工模型的准确率，提升数据加工效果。
一种基于强化学习模型优化方法装置设备介质

[发明专利]深度强化学习模型的处理方法及装置、介质、电子设备-CN202111061787.9有效
发明人：洪伟峻;申瑞珉;林悦 -专利权人：网易（杭州）网络有限公司
申请日： 2021-09-10 - 公布日： 2023-10-24 - 主分类号： G06N3/092 文献下载
摘要：本公开是关于一种深度强化学习模型的处理方法及装置、介质、电子设备，涉及人工智能技术领域，该方法包括：通过模型训练机器对深度强化学习模型进行划分，得到多个模型碎片，并通过模型分发进程将各模型碎片发送至中间节点；通过中间节点对模型碎片进行拼接，得到完整的序列化模型，并将完整的序列化模型发送至交互机器中；通过交互机器对完整的序列化模型进行反序列化处理，得到深度强化学习模型，并通过深度强化学习模型与预设的虚拟环境进行交互，得到训练数据；通过交互机器将训练数据发送至模型训练机器，并通过模型训练机器通过训练数据对深度强化学习模型进行训练。本公开提高了模型的分发效率。
深度强化学习模型处理方法装置介质电子设备

[发明专利]用于稀疏奖励环境的强化学习方法、装置、设备及介质-CN202110466716.0有效
发明人：吴天博;王健宗 -专利权人：平安科技（深圳）有限公司
申请日： 2021-04-28 - 公布日： 2023-10-24 - 主分类号： G06N3/092 文献下载
摘要：本发明公开了一种用于稀疏奖励环境的强化学习方法、装置、设备及介质，所述方法包括：将动作分别与多个当前环境状态进行交互，得到多个下一时刻的环境状态；计算所述下一时刻的环境状态的相似度，得到相似度矩阵；根据所述相似度矩阵判断当前环境状态是否会受到随机噪声的影响；若当前环境状态会受到随机噪声的影响，则通过预设的环境熟悉度模型计算内在奖励值；根据与环境交互产生的经验数据以及计算出来的内在奖励值进行策略的学习。根据本公开实施例提供的强化学习方法，能够在外部奖励比较稀疏或者不存在的情况下快速有效地学习策略。
用于稀疏奖励环境强化学习方法装置设备介质

[发明专利]强化学习模型的训练方法及装置-CN202311168598.0在审
发明人：杜梦雪;暴宇健 -专利权人：深圳须弥云图空间科技有限公司
申请日： 2023-09-12 - 公布日： 2023-10-20 - 主分类号： G06N3/092 文献下载
摘要：本公开涉及计算机技术领域，提供了一种强化学习模型的训练方法及装置。该方法包括：获取使用设定强化学习算法对第一强化学习模型进行训练得到的第二强化学习模型；将相同的训练数据分别输入到第一强化学习模型和第二强化学习模型，对应得到第一输出数据组和第二输出数据组；根据训练数据、第一输出数据组、第二输出数据组和设定的总损失函数获取总损失函数值，其中，总损失函数的自蒸馏损失函数部分根据第一输出数据组和第二输出数据组的距离得到；根据总损失函数值调整第一强化学习模型，直到第一强化学习模型收敛，得到训练好的目标强化学习模型。本公开的技术方案可以提高强化学习模型在实际应用中的泛化能力和可复现性。
强化学习模型训练方法装置

[发明专利]用于强化学习的方法及装置-CN202310896973.7在审
发明人：蔡天驰;包燊燎 -专利权人：支付宝（杭州）信息技术有限公司
申请日： 2023-07-20 - 公布日： 2023-10-17 - 主分类号： G06N3/092 文献下载
摘要：本说明书实施例提供了用于强化学习的方法及装置。在该方法中，获取对象数据；得到基于各个初始组数据中的状态和动作所预测的奖励预测值；基于各个初始组数据和奖励预测值进行重构，以得到预测组数据；以及根据预测组数据进行强化学习，以得到由一系列预测动作所构成的策略。
用于强化学习方法装置

[发明专利]一种基于深度强化学习的无人机数据采集方法-CN202310325032.8在审
发明人：汪大海;魏征宇;黄相良;诸加荣;赵勇;韩泽凯;季奕驰;许资来;林易乐 -专利权人：浙江图盛输变电工程有限公司温州科技分公司
申请日： 2023-03-27 - 公布日： 2023-10-17 - 主分类号： G06N3/092 文献下载
摘要：本发明公开了一种基于深度强化学习的无人机数据采集方法，包括以下步骤：对无人机数据采集函数进行深度强化学习；进行采集函数深度强化学习的决策过程；对采集数据进行误差特性分析与校准。通过深度强化学习，使无人机从感知到对应的决策动作，分析采集环境信息，使用人工智能方法对采集方法进行决策控制，实现无人机的数据采集，并且通过深度卷积神经网络的权值共享和池化等方法，降低算法的复杂度，并有效提取数据特征，同时对于采集数据中存在的传感器静态误差和传感器动态误差针对性地进行校准，增加数据采集准确性。
一种基于深度强化学习无人机数据采集方法

[发明专利]中间强化学习目标的无监督的检测-CN201780074215.X有效
发明人：皮埃尔·塞马内 -专利权人：谷歌有限责任公司
申请日： 2017-11-06 - 公布日： 2023-10-13 - 主分类号： G06N3/092 文献下载
摘要：用于检测中间强化学习目标的方法、系统和装置，包括在计算机存储介质上编码的计算机程序。方法之一包括：获得多个演示序列，每个演示序列是在正在执行强化学习任务的相应实例的时的环境的图像序列；对于每个演示序列，通过图像处理神经网络处理演示序列中的每个图像，以确定图像的相应的特征集合的特征值；根据演示序列确定将强化学习任务分区为多个子任务，其中，每个演示序列中的每个图像被分配给多个子任务中的相应子任务；并且，根据演示序列中的图像的特征值，确定多个子任务中的每一个的相应的区别特征集合。
中间强化学习目标监督检测

[发明专利]一种基于强化学习的自动驾驶决策不确定性估计方法-CN202311055832.9在审
发明人：邹倩颖;廖员 -专利权人：四川吉利学院
申请日： 2023-08-22 - 公布日： 2023-10-10 - 主分类号： G06N3/092 文献下载
摘要：本发明公开一种基于强化学习的自动驾驶决策不确定性估计方法，涉及自动驾驶技术领域，包括如下步骤：获取智能体相关数据，构建MDP模型；构建神经网络模型集合；构建神经网络模型集合，将状态s输入神经网络模型以获得行动‑价值函数Q；智能体根据Q值选择最优行动，实现不确定性估计或自主驾驶决策；在以往的研究中，通过强化学习训练出的智能体能够在接近训练数据的情况下做出合理的决策，这在一定程度上验证了强化学习技术在决策制定上的有效性；本发明方法不仅能够有效地估计推荐行动的不确定性，而且能够根据这种不确定性估计在面临未知情况时选择风险较小的行动；这一特性使其在处理自动驾驶等需要面临复杂、不确定环境的任务时具有显著优势。
一种基于强化学习自动驾驶决策不确定性估计方法

[发明专利]基于仿人脑认知计算模型的机器人复杂任务学习算法-CN202310769363.0在审
发明人：瞿心昱;白继平;窦慧丽;周微 -专利权人：浙江交通职业技术学院
申请日： 2023-06-28 - 公布日： 2023-10-10 - 主分类号： G06N3/092 文献下载
摘要：本发明涉及一种基于仿人脑认知计算模型的机器人复杂任务学习算法，本发明从感知知识自主学习感知‑动作映射知识，然后再拓展到对感知‑动作映射序列的自主学习，并通过感知‑动作映射序列经验来实现对复杂任务的执行。实现机器人在认知计算模型及其学习方法的引导下发育智能，执行非特定任务，适应多变环境，解决传统方法的局限，将内部动机Q学习方式引入感知‑动作对的增量学习，将感知‑动作知识的学习过程和回忆过程同时进行，同时自主学习更为复杂的知识和经验，完成非特定任务，即使得智能体能够在已学习的感知知识和感知‑动作映射知识的基础上学习更为复杂的非特定任务执行方法，获得更为复杂的经验和能力。
基于人脑认知计算模型机器人复杂任务学习算法

[发明专利]一种提高强化学习系统吞吐量的方法-CN202310419113.4有效
发明人：赵来平;辛宇嵩;赵志新;代心安;胡一涛;李克秋 -专利权人：天津大学
申请日： 2023-04-19 - 公布日： 2023-10-10 - 主分类号： G06N3/092 文献下载
摘要：本发明公开了一种提高强化学习系统吞吐量的方法，包括以下步骤：启动RL训练任务，协调器根据任务配置和硬件信息推导出最佳全局配置，然后启动流水线采样器、量化器和训练器；采样器进行基于组的并行流水线采样并收集一定数量的轨迹；轨迹被消息代理收集并分布到若干个训练器中，负责消息序列化和传播；训练器和预测器使用接收到的轨迹来训练和评估模型，并将更新后的模型权重发送到量化器进行权重量化；量化器通过消息代理向每个采样器中的代理发送量化的模型权重，以进行下一轮采样和训练。本发明可全面地提高强化学习系统的吞吐量，能够及时地发现和识别采样、训练和通信阶段的瓶颈，并采用协同优化技术提高了吞吐量，吞吐量高达90.6％。
一种提高强化学习系统吞吐量方法

1
2
3
4
5
6
7
8
9
下一页»
尾页
共 131 条