|
钻瓜专利网为您找到相关结果 46个,建议您 升级VIP下载更多相关专利
- [发明专利]一种基于多模板提示学习的视觉分类方法和装置-CN202310680502.2有效
-
杨舒;王生进
-
清华大学
-
2023-06-09
-
2023-08-25
-
G06V10/764
- 本发明提供一种基于多模板提示学习的视觉分类方法和装置,涉及机器学习技术领域,包括:利用候选文本集生成多个提示模板下的候选文本集;将待分类的视频的连续视频帧和每一个提示模板下的候选文本集输入视觉语言编码模型中,得到视频在每一个提示模板下的类别概率分布;利用所述类别概率分布,确定视频的视觉分类结果。本发明对多个预设提示模板和融入帧融合模块的视觉语言预训练模型进行全监督模板参数优化‑半监督模型优化以及全监督模板参数微调得到多个提示模板和视觉语言编码模型,提高了视觉语言预训练模型泛化到下游视觉理解任务时的训练样本利用效率,进而将多个提示模板和视觉语言编码模型应用于下游视觉理解任务时可提高理解的准确度。
- 一种基于模板提示学习视觉分类方法装置
- [发明专利]一种机器手抓取姿势质量的物理度量方法及装置-CN202111371166.0有效
-
王生进;鲁宇豪;李亚利
-
清华大学
-
2021-11-18
-
2023-06-13
-
B25J9/16
- 本发明提供一种机器手抓取姿势质量的物理度量方法及装置。其中,该方法包括:确定机器手的候选抓取姿势与物体之间接触点的平坦度分数;确定所述候选抓取姿势夹持所述物体的重心分数;基于所述平坦度分数和所述重心分数评估候选抓取姿势的质量。本发明提供的机器手抓取姿势质量的物理度量方法,基于人类在生活中拿起物体时倾向于接触物体上更平坦的部位以及习惯于接触物体的中心部位的特性,通过两种物理度量分数分别从物体自身平坦度和重力分析上评价机器手抓取姿势的质量,使得候选抓取姿势的评价结果具有更强的鲁棒性,在对实际物体预测抓取姿势时,能够选择出更加优质的候选抓取姿势,从而提升了后续机器手抓取姿势控制的精确度和稳定性。
- 一种机器抓取姿势质量物理度量方法装置
- [发明专利]基于半监督学习的行人再识别方法及装置-CN202010314162.8有效
-
韩剑;王生进;李亚利
-
清华大学
-
2020-04-20
-
2022-08-30
-
G06V40/10
- 本发明实施例提供一种基于半监督学习的行人再识别方法及装置,该方法包括:将多个已标注的有标签图像序列,输入预设的行人再识别模型,进行初步训练;从多个无标签的图像序列中,选取置信度满足预设条件的图像序列,对于每一选取的图像序列,将特征空间中最邻近的有标签图像序列的标签作为伪标签,从而得到多个选取图像序列构成的支持集;将支持集中的图像序列,输入预设的行人再识别模型进行再次训练;基于再次训练得到的模型进行行人再识别。该方法有效解决了实际场景下有标签序列不足、标注困难的问题。在仅有少量的标注序列的前提下,通过对易得的无标签序列生成伪标签,从而得到大量准确度高的训练样本。
- 基于监督学习行人识别方法装置
- [发明专利]一种大场景图像的区域提取方法及装置-CN202210395710.3在审
-
许景焘;李亚利;王生进
-
清华大学
-
2022-04-14
-
2022-07-08
-
G06T7/00
- 本发明提供一种大场景图像的区域提取方法及装置,其中的区域提取方法包括:S1,获取目标图像;S2,将目标图像输入至骨干特征网络,得到目标图像的骨干特征图;S3,获取目标图像的区域记录特征图;S4,根据骨干特征图和区域记录特征图,得到目标图像的目标状态;S5,将目标状态输入至策略生成网络,获取目标图像的区域提取策略;S6,根据区域提取策略,确定待提取的目标区域,并从目标图像中提取目标区域,目标区域由一个或多个子目标区域构成。该方法解决了现有技术中大场景图像处理效率低且缺乏灵活性的缺陷,有效提高了大场景图像处理效率,并增加了对大场景图像区域提取的灵活性。
- 一种场景图像区域提取方法装置
- [发明专利]一种动态光场重建方法、装置及设备-CN202110540712.2有效
-
方璐;季梦奇;郑添;袁肖赟;王生进
-
清华大学
-
2021-05-18
-
2022-05-17
-
G06T17/00
- 本发明公开了一种动态光场重建方法、装置及设备。方法包括:对多视角视频分别进行帧间的运动估计确定各视角的动态区域获得动态区域集;基于动态区域集对所述多视角视频的每一帧进行深度估计获得多视角视频中主视角视频每一帧的深度图;基于动态区域集对多视角视频的每一帧进行RGB压缩编码获得主视角视频每一帧的第一RGB信息;根据深度图和第一RGB信息确定空间体素每一帧的第二RGB信息和距离场SDF信息;基于第二RGB信息和SDF信息构建三维动态模型。利用该方法,能够根据第一RGB信息和深度图直接进行三维构建,无需对第一RGB信息和深度图进行解压,可以将压缩和三维构建一体化设计,减小三维构建过程中的数据通量,有效提高光场重建的效率。
- 一种动态重建方法装置设备
- [发明专利]基于无监督学习的行人再识别方法及系统-CN202010082628.6在审
-
王重道;王生进
-
清华大学
-
2020-02-07
-
2021-08-13
-
G06K9/00
- 本发明实施例提供了一种基于无监督学习的行人再识别方法及系统,首先获取包含有若干行人的两个待识别视频帧;然后将两个待识别视频帧输入至行人再识别模型,由行人再识别模型确定两个待识别视频帧中是否包含有同一行人。本发明实施例中采用的行人再识别模型基于深度卷积神经网络构建,且对行人再识别模型进行训练时,确定包含有若干行人的两个样本视频帧之间行人的循环分配矩阵,基于循环分配矩阵,确定优化损失函数。整个训练过程中并不需要任何额外算法模块或间接的监督信号,如行人跟踪模块或聚类算法等,可以直接从无标注的样本视频帧中学习行人特征,实现行人再识别,简化了行人再识别模型的整个训练过程,且使得行人再识别的准确性更高。
- 基于监督学习行人识别方法系统
- [发明专利]一种稀疏光场重建方法及装置-CN202110485198.7在审
-
方璐;季梦奇;张晋之;王生进
-
清华大学
-
2021-04-30
-
2021-07-16
-
G06T7/557
- 本发明实施例公开了一种稀疏光场重建方法,包括:根据稀疏光场信息中的二维图像的特征相似性提取目标物体的初始轮廓;建立目标物体与动态三维场景之间的映射关系;映射关系包括至少一个局部映射关系;局部映射关系表征目标物体一个表面与动态三维场景之间的映射关系;根据映射关系计算目标物体每个表面的几何信息与色彩信息;根据目标物体各表面的几何信息与色彩信息建立目标物体的大场景全局表面模型与三维图像。本发明实施例提供的稀疏光场重建方法,通过构建并求解目标物体表面与动态三维场景之间的映射关系,利用稀疏视角的二维图像数据实现了对目标物体的大场景全局表面模型与三维图像的重建,降低了对三维几何标注数据的依赖和存储复杂度,并提高了光场重建精度与效率。
- 一种稀疏重建方法装置
|