“谭明奎”申请（专利权）人搜索_中国专利权人_发明人_技术持有人_科研专家_钻瓜专利网

钻瓜专利网为您找到相关结果62个，建议您升级VIP下载更多相关专利

[发明专利]基于球面投影的点云弱监督语义分割方法、装置及介质-CN202310706041.1在审
发明人： 谭明奎;邹博韬;李蓉;庄壮伟;杜卿 -专利权人：华南理工大学
申请日： 2023-06-14 - 公布日： 2023-10-27 - 主分类号： G06V10/26 文献下载
摘要：本发明公开了一种基于球面投影的点云弱监督语义分割方法、装置及介质，属于智能识别技术领域。其中方法包括：获取激光雷达的点云数据；将点云数据映射到图像空间中；将映射后的数据输入训练后的语义分割模型进行处理，获得稠密及稀疏的预测结果，实现对点云数据的语义分割。本发明将点云数据投影至球面空间中，并将球面空间的特征输入至添加了对比学习模块的深度神经网络中，对目标点云数据进行处理，以获得预测结果，能够有效减少模型对数据标签的依赖，提高了点云分割结果在标签稀缺条件下的准确度。
基于球面投影点云弱监督语义分割方法装置介质

[发明专利]一种多目标导航方法、系统、装置及存储介质-CN202310684966.0在审
发明人： 谭明奎;陈沛豪;吉冬昱;林坤阳;杜卿 -专利权人：华南理工大学
申请日： 2023-06-09 - 公布日： 2023-10-24 - 主分类号： G01C21/20 文献下载
摘要：本发明公开了一种多目标导航方法、系统、装置及存储介质，涉及移动智能体对室内环境的探索与感知。其中方法包括：在预设的多目标导航策略上加入摄像头转动策略；以智能体为中心获取障碍物地图；设计启发式规则，为摄像头转动策略提供先验知识；结合启发式规则提供的转动参考方向、地图以及导航动作，利用深度神经网络预测摄像头转动参考方向；使用以探索为导向的奖励函数，对摄像头转动策略进行优化。本发明将摄像头转动策略建模为深度强化学习过程，通过训练实现摄像头转动和身体移动的协调工作，解决了被动摄像头转动策略探索效率低的问题，可以有效地提高多目标物体导航性能。
一种多目标导航方法系统装置存储介质

[发明专利]基于大语言模型控制的视频自动分析方法、装置及介质-CN202311063368.8在审
发明人： 谭明奎;游增;周凯 -专利权人：华南理工大学
申请日： 2023-08-22 - 公布日： 2023-10-24 - 主分类号： G06V20/40 文献下载
摘要：本发明公开了一种基于大语言模型控制的视频自动分析方法、装置及介质，属于计算机视觉领域。其中方法包括：构造任务提示语句，将任务提示语句输入预训练的大语言模型，使大语言模型明确后续的任务要求、指令内容以及输入输出；获取视频数据，对视频数据进行预处理，获得视频处理单元，根据视频处理单元提取视频中的场景信息和视频内容；将提取到的场景信息和视频内容按照预设的格式组织，并输入训练后的大语言模型，进行模型选择；根据大语言模型的模型选择结果调用相应的感知模型对视频数据进行处理和分析。本发明根据视频场景和内容的动态变化，自动选择合适的感知模型对视频进行处理和分析，更加适用于大规模、多场景、高动态变化的视频分析。
基于语言模型控制视频自动分析方法装置介质

[发明专利]一种微动作时间学参数获取方法、装置及介质-CN202310664035.4在审
发明人： 谭明奎;阮湘辉;陈卓琨;游增 -专利权人：华南理工大学
申请日： 2023-06-06 - 公布日： 2023-10-10 - 主分类号： G06V20/40 文献下载
摘要：本发明公开了一种微动作时间学参数获取方法、装置及介质，属于医疗视频理解与识别领域。其中方法包括：获取吞咽造影视频数据；根据吞咽造影视频数据提取视频特征；所述视频特征包括RGB特征以及光流特征；将提取到的视频特征输入可变窗口大小的注意力机制，进行特征增强处理，输出视觉增强特征；将视觉增强特征输入由粗到细两阶段微动作定位网络，输出吞咽造影微动作定位和识别的结果。本发明通过利用视频理解中的时序动作定位技术，实现对吞咽造影视频进行时序上的自动定位，获取吞咽过程中各微动作的时序信息，为实现吞咽造影智能定量分析，提供可靠的依据。
一种微动时间参数获取方法装置介质

[发明专利]基于语言描述的户型设计方法和装置以及系统-CN202011279236.5有效
发明人：王宇涵;唐睿;陈奇;吴琦;谭明奎;王帅 -专利权人：杭州群核信息技术有限公司
申请日： 2020-11-16 - 公布日： 2023-10-03 - 主分类号： G06F30/12 文献下载
摘要：本发明公开了一种基于语言描述的户型设计方法和装置以及系统，包括：获取用户的语音数据并转换成文本数据；提取文本数据中关于户型设计的属性信息，并以属性信息为节点，按照文本语义对节点进行连接，形成属性语义图；采用基于神经网络构建的布局预测模型对属性语义图进行布局预测，输出预测的户型布局图，并对户型布局图进行优化处理，获得优化的户型布局图；采用基于生成式对抗网络构建的纹理生成模型根据文本语义生成纹理信息；依据优化的户型布局图和纹理信息生成三维场景模型并渲染得到多视角的场景渲染图。该户型设计方法和装置以及系统根据用户的语音数据进行自动化户型设计，在设计户型满足用户需求的基础上，提升了户型设计效率。
基于语言描述户型设计方法装置以及系统

[发明专利]基于多尺度细粒度特征融合的图片导航方法、装置及介质-CN202310890318.0有效
发明人： 谭明奎;孙鑫宇;陈沛豪;樊琚岗;杜卿;陈健 -专利权人：华南理工大学
申请日： 2023-07-20 - 公布日： 2023-09-26 - 主分类号： G01C21/20 文献下载
摘要：本发明公开了一种基于多尺度细粒度特征融合的图片导航方法、装置及介质，属于智能导航技术领域。其中方法包括：获取导航目标位置的目标图像；获取智能体在环境中当前时刻的视觉观测；将目标图像和视觉观测输入多尺度细粒度特征融合模块进行多尺度细粒度特征融合，输出融合后的视觉状态特征；根据视觉状态特征预测智能体下一时刻的状态，以使智能体根据状态执行动作，直到到达导航目标位置。本发明利用深度神经网络中隐藏层高分辨率激活图中所包含的物体细粒度特征，将特征作为提示引导视觉观测模型关注当前环境中与目标图像在低级属性和高级语言上具有相关性的区域，从而改善智能体在探索阶段推理和寻找目标位置的能力。
基于尺度细粒度特征融合图片导航方法装置介质

[发明专利]一种三维人脸表情动画生成方法、系统、装置及介质-CN202310833336.5在审
发明人： 谭明奎;刘旭;杜卿 -专利权人：华南理工大学
申请日： 2023-07-07 - 公布日： 2023-09-19 - 主分类号： G06T13/40 文献下载
摘要：本发明公开了一种三维人脸表情动画生成方法、系统、装置及介质，属于人脸动画生成技术。其中方法包括：获取输入音频，提取细粒度音频情绪特征，并得到音频情绪软标签；将音频情绪特征映射为三维人脸模型的系数序列；提取系数序列中的情绪特征，并得到系数序列的情绪软标签；根据系数序列计算得到三维人脸顶点坐标；根据计算得到的三维人脸顶点坐标与真实人脸顶点坐标计算顶点损失，根据音频情绪软标签和系数序列的情绪软标签计算情绪一致性损失，根据这两项损失计算模型参数的梯度，并对模型参数进行更新。本发明构建了一种情绪一致性约束，能够为模型训练提供与情绪直接相关的监督信号，确保模型优化过程中准确关注人脸表情动画效果。
一种三维表情动画生成方法系统装置介质

[发明专利]一种基于开放场景地图的视觉语言导航方法、装置及介质-CN202310788171.4有效
发明人： 谭明奎;陈沛豪;吉冬昱;林坤阳;杜卿 -专利权人：华南理工大学
申请日： 2023-06-30 - 公布日： 2023-09-12 - 主分类号： G01C21/20 文献下载
摘要：本发明公开了一种基于开放场景地图的视觉语言导航方法、装置及介质，属于智能导航技术领域。其中方法包括：获取智能体在环境中的视觉图像数据；根据视觉图像数据构建开放场景地图表征，所述开放场景地图表征包括物体属性层级地图、开放场景物体语义地图和标志物语义层级地图；根据构建的开放场景地图表征预测子目标点的位置及导航进度，并执行对应动作。本发明将物体属性层级信息结合开放场景物体和指令标志物的语义信息，将以上信息结合构建开放场景地图，提升该地图对开放场景中多样化物体的属性、位置的表征能力，使地图表征不局限于固定的少量物体类别，且增加的物体属性信息可帮助智能体消除物体类别歧义，准确定位感兴趣物体。
一种基于开放场景地图视觉语言导航方法装置介质

[发明专利]一种多智能体强化学习方法、装置及介质-CN202310824569.9有效
发明人： 谭明奎;林坤阳;王宇丰;陈沛豪;杜卿;胡灏;李利 -专利权人：华南理工大学;广东广物互联网科技有限公司
申请日： 2023-07-06 - 公布日： 2023-09-12 - 主分类号： G05B13/04 文献下载
摘要：本发明公开了一种多智能体强化学习方法、装置及介质，属于多个智能体行为自主控制技术领域。其中方法包括：获取观测，智能体根据观测获取动作概率分布，以及推理队友智能体基于观测的动作概率分布；根据获得的动作概率分布，计算每个智能体与队友智能体的行为一致性；通过动态缩放网络获取动态调节因子，根据动态调节因子计算行为一致性的内部奖励；根据链式求导法则，以最大化外部回报为目标，对动态缩放网络的参数进行优化；使用优化完成的策略实现多智能体的协作任务。本发明提出一种基于行为一致性的内在奖励，解决多智能体协作算法忽略智能体之间行为意图的配合，从而导致出现次优化策略的问题，能够有效地提高多智能体之间的协作性能。
一种智能强化学习方法装置介质

[发明专利]基于多模态数据融合的语义分割方法、系统、装置及介质-CN202110498981.7有效
发明人： 谭明奎;李蓉;庄壮伟 -专利权人：华南理工大学
申请日： 2021-05-08 - 公布日： 2023-09-05 - 主分类号： G06V20/56 文献下载
摘要：本发明公开了一种基于多模态数据融合的语义分割方法、系统、装置及介质，其中方法包括以下步骤：获取图像数据和激光雷达的点云数据；根据图像数据将点云数据映射到图像空间；将映射后的数据输入语义分割模型进行处理，获得稠密及稀疏的预测结果，实现对点云数据的语义分割。本发明通过融合图像信息和点云信息，能够有效滤除图像中的干扰信息，另外，由于融合了拥有更加稠密纹理、颜色信息的2D图像数据，提高了点云分割结果的准确度，可广泛应用于智能识别技术领域。
基于多模态数据融合语义分割方法系统装置介质

[发明专利]一种基于锚点的密集嵌入生成方法、装置和存储介质-CN202310606289.0在审
发明人： 谭明奎;黄尚昕;刘立钊;庄壮伟;杜卿;吴祥淼 -专利权人：华南理工大学
申请日： 2023-05-25 - 公布日： 2023-09-01 - 主分类号： G06F16/53 文献下载
摘要：本发明公开了一种基于锚点的密集嵌入生成方法、装置和存储介质，可广泛应用于嵌入生成技术。其中方法包括：获取待检索的目标图像；将所述目标图像输入目标模型中；利用所述目标模型将所述目标图像映射到特征空间中，按照特征空间中的距离进行比较，获得检索结果；其中，所述目标模型通过利用锚点嵌入生成的密集嵌入来训练深度神经网络模型后获得。本发明利用锚点附近的特征空间来稠密的生成无对应数据点的嵌入特征进行训练，从而实现更加准确的图像检索，解决深度度量学习中由于计算资源限制，从而导致现有采样无法采样到有效样本的问题。此外，本发明还能够直接集成到现有的深度度量学习框架中，无需任何额外的修改，并且具有显著的技术效果。
一种基于密集嵌入生成方法装置存储介质

[发明专利]图像分类到语义分割的跨任务知识蒸馏方法、装置及介质-CN202310499648.7在审
发明人： 谭明奎;罗然;姚江超;许守恺 -专利权人：华南理工大学
申请日： 2023-05-05 - 公布日： 2023-09-01 - 主分类号： G06V10/26 文献下载
摘要：本发明公开了一种图像分类到语义分割的跨任务知识蒸馏方法、装置及介质，其中方法包括：对预训练大模型的结构进行重编码；针对预训练大模型的部分参数进行微调；将训练后的大模型中解码器的参数复制到学生模型的解码器；固定学生模型的解码器，利用预设的损失函数训练学生模型的骨干网络；缩小学习率，利用预设的损失函数，继续训练全部的学生模型，获得最终的语义分割模型，以用于语义分割。本发明解决了在计算资源受限的情况下，难以直接将大模型应用于下游任务的问题，可以使用较小的计算代价提升语义分割模型的性能。本发明可广泛应用于数据处理、模型压缩技术领域。
图像分类语义分割任务知识蒸馏方法装置介质

[发明专利]一种基于知识生成的视觉问答方法、装置及存储介质-CN202310702075.3有效
发明人：杜卿;杜雯靖;谭明奎;李利 -专利权人：华南理工大学;广东广物互联网科技有限公司
申请日： 2023-06-14 - 公布日： 2023-08-22 - 主分类号： G06F16/332 文献下载
摘要：本发明公开了一种基于知识生成的视觉问答方法、装置及存储介质，属于视觉问答领域。其中方法包括以下步骤：基于问题引导的图像描述，将图片信息转化为问题相关的文本描述；构建提示模板，根据提示模板引导语言模型生成符合样式的多条候选知识；将所述候选知识、问题文本以及图像输入到统一编码器中，进行联合编码，获得多模态表征；对多条候选知的多模态表征识进行融合，获得知识增强特征，根据知识增强特征进行答案预测。本发明通过知识生成，只需少量的学习样本即可将预训练模型的积累的知识迁移到新的下游任务中，可广泛应用于开放场景下的知识视觉问答。
一种基于知识生成视觉问答方法装置存储介质

[发明专利]一种自监督视觉语言导航预训练方法、装置及存储介质-CN202310425915.6有效
发明人： 谭明奎;林坤阳;陈沛豪;黄狄伟;杜卿 -专利权人：华南理工大学
申请日： 2023-04-20 - 公布日： 2023-08-22 - 主分类号： G06V20/40 文献下载
摘要：本发明公开了一种自监督视觉语言导航预训练方法、装置及存储介质，其中方法包括：获取房屋游览视频，对房屋游览视频进行过滤，获得有效帧；根据获得的有效帧，通过基于熵最小值理论的轨迹生成算法构建导航轨迹；根据获得的导航轨迹构建导航指令；根据导航轨迹和导航指令构建轨迹‑指令对，生成预训练数据集；根据获得的预训练数据集，使用轨迹判断任务对网络架构进行预训练。本发明首次采用房屋游览视频构建视觉语言导航预训练数据，自动化地生成导航轨迹和导航指令，构建轨迹‑指令对，有效地降低标注成本。另外，设计了针对布局推理能力学习的预训练任务，实现了视觉语言导航智能体对房屋布局知识的学习，可广泛应用于视觉语言导航技术领域。
一种监督视觉语言导航训练方法装置存储介质

[发明专利]一种室外大规模三维场景重建方法、系统、设备和介质-CN202310622513.5有效
发明人：吴庆耀;霍东健;胡灏;李利;张木树;谭明奎;杜卿 -专利权人：华南理工大学;广东广物互联网科技有限公司
申请日： 2023-05-30 - 公布日： 2023-08-15 - 主分类号： G06T17/00 文献下载
摘要：本发明公开了一种室外大规模三维场景重建方法、系统、设备和介质，属于三维场景重建的技术领域。该方法包括：获取室外场景数据集，根据室外场景数据集获取场景重建数据集；构建三维场景重建模型，在场景重建数据集上迭代训练三维场景重建模型；将待处理的相机轨迹输入训练后的三维场景重建模型，输出场景重建的结果；其中，三维场景重建模型包括外观编码模块、颜色预测模块、图卷积模块和距离场表示模块。本发明的三维场景重建模型，通过图卷积模块对采样点位置、距离场和预测颜色向量进行信息的传递，改进预测质量，有效解决了室外大规模场景重建表面不精确和训练效率低下的问题，提升训练三维重建模型的效率的同时，提高了场景重建表面精度。
一种室外大规模三维场景重建方法系统设备介质

1
2
3
4
5
下一页»
尾页
共 62 条