专利名称
主分类
A 农业
B 作业;运输
C 化学;冶金
D 纺织;造纸
E 固定建筑物
F 机械工程、照明、加热
G 物理
H 电学
专利下载VIP
公布日期
2023-10-24 公布专利
2023-10-20 公布专利
2023-10-17 公布专利
2023-10-13 公布专利
2023-10-10 公布专利
2023-10-03 公布专利
2023-09-29 公布专利
2023-09-26 公布专利
2023-09-22 公布专利
2023-09-19 公布专利
更多 »
专利权人
国家电网公司
华为技术有限公司
浙江大学
中兴通讯股份有限公司
三星电子株式会社
中国石油化工股份有限公司
清华大学
鸿海精密工业股份有限公司
松下电器产业株式会社
上海交通大学
更多 »
钻瓜专利网为您找到相关结果27个,建议您升级VIP下载更多相关专利
  • [发明专利]基于随机网络预测误差的专家数据扩增方法和装置-CN202310049748.X在审
  • 章宗长;俞扬;周志华;韩馥光 - 南京大学
  • 2023-02-01 - 2023-06-30 - B25J9/16
  • 本发明公开一种基于随机网络预测误差的专家数据扩增方法和装置,通过在机械臂专家数据上使用随机网络蒸馏方法训练预测网络,能够使用预测网络的预测误差判别与机械臂专家数据相似的数据,机械臂在目标任务的场景下进行一系列操作采样得到数据,根据预测误差筛选采样数据中与机械臂专家数据相似的部分,然后将筛选得到的数据对原始机械臂专家数据集进行扩增。本发明能在不与机械臂专家交互的条件下,通过机械臂在目标任务的场景下与环境交互采样数据并利用预测误差筛选与专家数据接近的数据,对原始机械臂专家数据集进行扩增,从而提升使用行为克隆训练的机械臂的策略的性能。
  • 基于随机网络预测误差专家数据扩增方法装置
  • [发明专利]基于部分可观测强化学习的机器人导航控制方法及系统-CN202210366719.1在审
  • 章宗长;俞扬;孔祥瀚 - 南京大学
  • 2022-04-08 - 2022-08-16 - G05B13/04
  • 本发明公开了一种基于部分可观测强化学习的机器人导航控制方法及系统,该控制方法及系统主要应用于机器人在模型未知的不确定性环境的导航任务中。为在的不确定性环境下完成导航任务,本发明采用部分可观测环境下的强化学习算法。系统包括滤波单元、规划单元、回放池、学习单元。在本发明中,使用状态粒子表示信念状态以减少信念状态更新的计算复杂度,使用基于学得模型的模拟规划以提高样本利用率,使用重采样方法防止粒子退化问题,使用基于信念状态负信息熵的奖励塑形以提高算法在奖励稀疏的导航任务中的训练效率和稳定性。本发明能够在模型未知的部分可观测环境实现高效稳定的策略学习,并在实际机器人导航任务中使用学得的策略。
  • 基于部分观测强化学习机器人导航控制方法系统
  • [发明专利]基于元强化学习的车辆自适应的自动驾驶决策方法及系统-CN202110356309.4有效
  • 章宗长;俞扬;周志华;胡亚飞;徐峰 - 南京大学
  • 2021-04-01 - 2022-07-29 - B60W60/00
  • 本发明公开一种基于元强化学习的车辆自适应的自动驾驶决策方法及系统,引入了一个任务编码模块,从车辆行车轨迹中识别当前车况信息,并编码为向量表示,使系统意识到当前车况,并且在车况发生改变时及时调整自身行车策略,使系统更加鲁棒、安全。为了达到较好的乘坐体验,使用强化学习来解决自动驾驶领域中的决策问题。系统包括虚拟环境模块、记忆模块、感知模块、编码模块、决策模块和控制模块。通过向虚拟环境数据库添加极可能丰富的任务模型以加强系统的可靠性;通过改变SAC强化学习算法,使其能够基于任务编码模块做出决策;通过最大化任务编码与采样轨迹之间的互信息的方式,使任务编码模块能够学习到一个包含丰富信息的任务编码。
  • 基于强化学习车辆自适应自动驾驶决策方法系统
  • [发明专利]基于第三人称模仿学习的机械臂动作学习方法及系统-CN202010040178.4有效
  • 章宗长;俞扬;姜冲 - 南京大学
  • 2020-01-15 - 2022-06-21 - B25J9/16
  • 本发明公开一种基于第三人称模仿学习的机械臂动作学习方法及系统,用于机械臂自动控制,使得机械臂可以通过观看第三方示范来自动学习如何完成相应的操控任务。本发明中样本均以视频形式存在,而无需使用大量传感器来获取状态信息;在判别器模块中使用了图像差分方法,可以使判别器模块忽略学习对象的外观与环境背景,从而可以使用第三方示范数据进行模仿学习;大大降低了样本的获取成本;通过在判别器模块中使用了变分判别器瓶颈来约束判别器对由机械臂产生的示范的判别准确率,更好地平衡判别器模块与控制策略模块的训练过程;本发明能够快速模仿用户示范的动作,操作简单灵活,对环境及示范者要求低。
  • 基于第三人称模仿学习机械动作学习方法系统
  • [发明专利]基于粒子注意力深度Q学习的部分观测路口自主并道方法-CN202110337809.3有效
  • 章宗长;廖沩健;俞扬;黎铭;周志华 - 南京大学
  • 2021-03-30 - 2022-04-22 - G08G1/01
  • 本发明公开了一种基于粒子注意力深度Q学习的部分观测路口自主并道方法,着眼于路口场景、车辆并道任务、观测视野被楼宇和其他车辆遮挡住的部分观测条件,使用强化学习中的深度Q学习算法对给定路线的并道车辆的驾驶行为进行优化。使用低维物理信息量作为车辆的观测表征;使用基于粒子的表示处理因遮挡造成的部分观测问题;通过引入注意力机制优化状态表示,使模型可以仅接受未被遮挡到的车辆信息同时具有输入排列不变性;使用深度Q学习算法根据获取到的社会车辆信息输出当前最优驾驶动作;通过在经验回放池中加入多种车流密度下的采样数据,结合优先经验回放技术,使自主并道行为可以适应真实环境下多变的车流密度。
  • 基于粒子注意力深度学习部分观测路口自主方法
  • [发明专利]基于部分可观测迁移强化学习的自动驾驶决策方法及系统-CN201911373375.1有效
  • 章宗长;俞扬;周志华;王艺深;蒋俊鹏 - 南京大学
  • 2019-12-27 - 2021-09-28 - G05D1/02
  • 本发明公开一种基于部分可观测迁移强化学习的自动驾驶决策方法及系统,使用情景相关的方案重用方法,通过迁移驾驶方案数据库中的现有方案来辅助解决陌生路况下的行车问题。为了达到较好的乘坐体验,使用强化学习来解决自动驾驶领域中的决策问题。系统包括情景单元、感知单元、决策单元、动作规划单元和控制单元。通过向虚拟环境数据库添加新的环境模型以应对日渐复杂的行车情景;通过在神经网络中添加卷积层来识别车辆周围的障碍物;通过在神经网络中添加长短时记忆单元来记忆重要的历史信息;通过使用基于玻尔兹曼软最大化的加权深度双Q网络算法来更准确地估计Q值;通过使用最大熵Mellowmax算法来求得各驾驶方案被选中的概率。
  • 基于部分观测迁移强化学习自动驾驶决策方法系统
  • [发明专利]基于生成对抗模仿学习的自动泊车方法及系统-CN202010260031.6有效
  • 朱佳成;章宗长 - 南栖仙策(南京)科技有限公司
  • 2020-04-03 - 2021-08-24 - B60W30/06
  • 本发明涉及一种基于生成对抗模仿学习的自动泊车方法及系统,利用泊车轨迹的原始图像数据,基于生成对抗模仿学习生成相应的泊车策略,且生成的泊车策略在实际泊车过程中产生的泊车轨迹应该与成功的泊车轨迹相似。本申请由于是一种在线学习算法,在学习的同时会进行很多次实验,并且在成功学习到优秀的泊车策略前会经历很多次失败,但是可以将这些失败的泊车轨迹数据存储下用于进一步的学习,这样能够加快学习速度并提高样本利用率。本发明由于学得的智能泊车策略不是基于规则的,而是一种较为智能的策略,因此使其能够胜任不同场景下的自动泊车。
  • 基于生成对抗模仿学习自动泊车方法系统

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top