“王生进”申请（专利权）人搜索_中国专利权人_发明人_技术持有人_科研专家_钻瓜专利网

钻瓜专利网为您找到相关结果46个，建议您升级VIP下载更多相关专利

[发明专利]一种基于多模板提示学习的视觉分类方法和装置-CN202310680502.2有效
发明人：杨舒;王生进 -专利权人：清华大学
申请日： 2023-06-09 - 公布日： 2023-08-25 - 主分类号： G06V10/764 文献下载
摘要：本发明提供一种基于多模板提示学习的视觉分类方法和装置，涉及机器学习技术领域，包括：利用候选文本集生成多个提示模板下的候选文本集；将待分类的视频的连续视频帧和每一个提示模板下的候选文本集输入视觉语言编码模型中，得到视频在每一个提示模板下的类别概率分布；利用所述类别概率分布，确定视频的视觉分类结果。本发明对多个预设提示模板和融入帧融合模块的视觉语言预训练模型进行全监督模板参数优化‑半监督模型优化以及全监督模板参数微调得到多个提示模板和视觉语言编码模型，提高了视觉语言预训练模型泛化到下游视觉理解任务时的训练样本利用效率，进而将多个提示模板和视觉语言编码模型应用于下游视觉理解任务时可提高理解的准确度。
一种基于模板提示学习视觉分类方法装置

[发明专利]基于面部图像的口罩适合性检测方法及装置-CN202210302699.1在审
发明人：罗常伟;黄晶;王生进;王桂芳;蔡颖南 -专利权人：清华大学;首都医科大学附属北京佑安医院
申请日： 2022-03-24 - 公布日： 2023-08-22 - 主分类号： G06V40/16 文献下载
摘要：本发明提供一种基于面部图像的口罩适合性检测方法及装置，其中方法包括：获取受试者的正面面部图像；将所述正面面部图像输入至适合性检测模型，获得所述适合性检测模型输出的一个或多个适合性因数，每个所述适合性因数与预设口罩型号一一对应；其中，所述适合性检测模型是基于图像样本以及所述图像样本对应的一个或多个适合性因数标签进行训练后得到的，每个所述适合性因数标签是根据所述图像样本预先确定的，并与预设口罩型号一一对应。本发明实施例提供的基于面部图像的口罩适合性检测方法，提高了口罩适合性检测的便捷性，降低了口罩适合性检测的成本。
基于面部图像口罩适合检测方法装置

[发明专利]一种机器手抓取姿势质量的物理度量方法及装置-CN202111371166.0有效
发明人： 王生进;鲁宇豪;李亚利 -专利权人：清华大学
申请日： 2021-11-18 - 公布日： 2023-06-13 - 主分类号： B25J9/16 文献下载
摘要：本发明提供一种机器手抓取姿势质量的物理度量方法及装置。其中，该方法包括：确定机器手的候选抓取姿势与物体之间接触点的平坦度分数；确定所述候选抓取姿势夹持所述物体的重心分数；基于所述平坦度分数和所述重心分数评估候选抓取姿势的质量。本发明提供的机器手抓取姿势质量的物理度量方法，基于人类在生活中拿起物体时倾向于接触物体上更平坦的部位以及习惯于接触物体的中心部位的特性，通过两种物理度量分数分别从物体自身平坦度和重力分析上评价机器手抓取姿势的质量，使得候选抓取姿势的评价结果具有更强的鲁棒性，在对实际物体预测抓取姿势时，能够选择出更加优质的候选抓取姿势，从而提升了后续机器手抓取姿势控制的精确度和稳定性。
一种机器抓取姿势质量物理度量方法装置

[发明专利]基于序列变形的场景文字检测方法及系统-CN202010853196.4有效
发明人：彭良瑞;肖善誉;闫睿劼;姚刚;王生进;闵载植;石宗烨 -专利权人：清华大学;现代自动车株式会社;起亚自动车株式会社
申请日： 2020-08-22 - 公布日： 2023-03-10 - 主分类号： G06V20/62 文献下载
摘要：本发明公开一种基于序列变形的场景文字检测方法及系统。所述方法及系统包括：特征提取模块基于卷积神经网络对输入的场景图像提取第一特征图x，并发送至序列变形模块；序列变形模块通过对第一特征图x进行迭代采样，得到采样位置对应的特征图，并且通过将第一特征图x与采样得到的特征图沿通道维度进行深度学习中的拼接操作而得到第二特征图m，并发送至辅助字符计数网络；序列变形模块还通过对第二特征图m的通道维度上进行特征聚合操作而得到第三特征图，并发送至目标检测基准网络；目标检测基准网络通过对第三特征图进行文本区域候选框提取，并通过回归拟合得到文本区域预测结果作为场景文字检测结果。
基于序列变形场景文字检测方法系统

[发明专利]基于Transformer的两步式领域自适应行人再识别方法-CN202211166187.3在审
发明人：余盛铭;王生进 -专利权人：清华大学;佛山市帆思科材料技术有限公司
申请日： 2022-09-23 - 公布日： 2022-12-20 - 主分类号： G06V40/10 文献下载
摘要：本发明公开了基于Transformer的两步式领域自适应行人再识别方法，属于行人再识别技术领域，具体包括：将源域图像预处理并添加class token；构建Transformer识别模型，将所述源域图像和class token编码后输入Transformer识别模型，提取源域图像中的行人特征，并反向传播更新模型；获取目标域图像，将目标域图像进预处理并添加class token；将class token作为域指示器，固定模型中除class token以外的参数，将目标域图像编码后输入Transformer识别模型，提取目标域图像中的行人特征，并反向传播更新模型；开放模型中所有参数，将经过过滤的目标域图像输入Transformer识别模型，提取目标域图像的行人特征，并反向传播更新模型；本发明将Transformer应用到领域自适应行人再识别中，提升了识别模型的性能。
基于 transformer 两步式领域自适应行人识别方法

[发明专利]基于半监督学习的行人再识别方法及装置-CN202010314162.8有效
发明人：韩剑;王生进;李亚利 -专利权人：清华大学
申请日： 2020-04-20 - 公布日： 2022-08-30 - 主分类号： G06V40/10 文献下载
摘要：本发明实施例提供一种基于半监督学习的行人再识别方法及装置，该方法包括：将多个已标注的有标签图像序列，输入预设的行人再识别模型，进行初步训练；从多个无标签的图像序列中，选取置信度满足预设条件的图像序列，对于每一选取的图像序列，将特征空间中最邻近的有标签图像序列的标签作为伪标签，从而得到多个选取图像序列构成的支持集；将支持集中的图像序列，输入预设的行人再识别模型进行再次训练；基于再次训练得到的模型进行行人再识别。该方法有效解决了实际场景下有标签序列不足、标注困难的问题。在仅有少量的标注序列的前提下，通过对易得的无标签序列生成伪标签，从而得到大量准确度高的训练样本。
基于监督学习行人识别方法装置

[发明专利]一种大场景图像的区域提取方法及装置-CN202210395710.3在审
发明人：许景焘;李亚利;王生进 -专利权人：清华大学
申请日： 2022-04-14 - 公布日： 2022-07-08 - 主分类号： G06T7/00 文献下载
摘要：本发明提供一种大场景图像的区域提取方法及装置，其中的区域提取方法包括：S1，获取目标图像；S2，将目标图像输入至骨干特征网络，得到目标图像的骨干特征图；S3，获取目标图像的区域记录特征图；S4，根据骨干特征图和区域记录特征图，得到目标图像的目标状态；S5，将目标状态输入至策略生成网络，获取目标图像的区域提取策略；S6，根据区域提取策略，确定待提取的目标区域，并从目标图像中提取目标区域，目标区域由一个或多个子目标区域构成。该方法解决了现有技术中大场景图像处理效率低且缺乏灵活性的缺陷，有效提高了大场景图像处理效率，并增加了对大场景图像区域提取的灵活性。
一种场景图像区域提取方法装置

[发明专利]一种动态光场重建方法、装置及设备-CN202110540712.2有效
发明人：方璐;季梦奇;郑添;袁肖赟;王生进 -专利权人：清华大学
申请日： 2021-05-18 - 公布日： 2022-05-17 - 主分类号： G06T17/00 文献下载
摘要：本发明公开了一种动态光场重建方法、装置及设备。方法包括：对多视角视频分别进行帧间的运动估计确定各视角的动态区域获得动态区域集；基于动态区域集对所述多视角视频的每一帧进行深度估计获得多视角视频中主视角视频每一帧的深度图；基于动态区域集对多视角视频的每一帧进行RGB压缩编码获得主视角视频每一帧的第一RGB信息；根据深度图和第一RGB信息确定空间体素每一帧的第二RGB信息和距离场SDF信息；基于第二RGB信息和SDF信息构建三维动态模型。利用该方法，能够根据第一RGB信息和深度图直接进行三维构建，无需对第一RGB信息和深度图进行解压，可以将压缩和三维构建一体化设计，减小三维构建过程中的数据通量，有效提高光场重建的效率。
一种动态重建方法装置设备

[发明专利]一种基于时空约束的目标聚类方法及系统-CN201910876163.9有效
发明人：赵炫;王生进;李亚利 -专利权人：清华大学;北京中盾安全技术开发公司
申请日： 2019-09-17 - 公布日： 2022-05-17 - 主分类号： G06V40/16 文献下载
摘要：本发明实施例提供一种基于时空约束的目标聚类方法及系统。该方法包括构建待聚类样本池，选取人脸样本集和行人样本集，对人脸样本集和行人样本集分别进行图卷积，得到人脸相似度和行人相似度，再进行融合卷积得到融合视觉相似度，进一步得到样本聚类结果，获取摄像机转移概率矩阵，得到更新的摄像机转移概率矩阵，对单个个体的路径合理性进行评估，得到合理性评估结果，对样本聚类结果进行优化，得到聚类优化结果，迭代将聚类优化结果存入已聚类样本池。本发明实施例通过对人员图像信息进行，采用加权图模型卷积对人脸和行人图像进行融合，并对人员在不同摄像机之间转移的概率进行分析，通过对整体概率进行全局优化，有效提升人员聚类的准确率。
一种基于时空约束目标方法系统

[发明专利]一种基于人机融合的目标识别方法-CN201910464579.X有效
发明人：江碧涛;李晓斌;王生进;杨渊博;傅雨泽;孟钢;罗江锋;尹璐;岳文振;李阳;张宇喆;李志欣 -专利权人：北京市遥感信息研究所
申请日： 2019-05-30 - 公布日： 2022-04-12 - 主分类号： G06V10/22 文献下载
摘要：本发明涉及一种基于人机融合的目标识别方法，属于遥感图像处理和分析领域，解决大幅面多目标遥感图像的目标识别分类问题；方法包括，获取图像分析员进行图像分析时的眼动信号,生成与图像对应的眼动热图，根据设置的热度阈值确定图像中的候选目标区域，裁剪图像提取候选目标；利用预先训练的卷积神经网络对所述候选目标进行特征提取；根据候选目标的特征进行目标识别和分类。本发明联合了人眼准确高效的目标搜索能力和卷积神经网络强大的目标分类能力，实现大幅面可见光遥感图像目标识别，并且可扩展应用于红外、高光谱、合成孔径雷达遥感图像目标识别。
一种基于人机融合目标识别方法

[发明专利]人脸识别方法、装置及电子设备-CN202010653082.5在审
发明人：王羽飞;王生进 -专利权人：清华大学
申请日： 2020-07-08 - 公布日： 2022-01-14 - 主分类号： G06V40/16 文献下载
摘要：本发明实施例提供人脸识别方法、装置及电子设备，所述方法包括：将待识别人脸图像和所述待识别人脸图像的人脸部件解析图输入训练好的低分辨率识别模型，输出所述待识别人脸图像的特征；根据所述待识别人脸图像的特征进行人脸识别。通过将待识别人脸图像的人脸部件解析图作为人脸先验信息输入训练好的低分辨率识别模型，提高了对于低分辨率人脸图像的识别成功率。
识别方法装置电子设备

[发明专利]场景文字识别模型的训练方法与识别方法及装置-CN202111028327.6在审
发明人：彭良瑞;石浩东;闫睿劼;王生进 -专利权人：清华大学
申请日： 2021-09-02 - 公布日： 2021-12-07 - 主分类号： G06K9/20 文献下载
摘要：本申请实施例提供一种场景文字识别模型的训练方法与识别方法及装置。场景文字识别模型的训练方法包括：获取样本图像；将样本图像输入场景文字识别模型，得到样本图像对应的预测文字和文字几何形状信息的预测特征图；根据预测文字、文字几何形状信息的预测特征图、样本图像对应的目标文字以及文字几何形状信息的目标图，计算总损失函数，并利用总损失函数最小化调整场景文字识别模型的参数，得到满足收敛条件的场景文字识别模型；其中文字几何形状信息包括前景掩膜以及字符轮廓中的至少一种。本申请对具有复杂背景的场景文字具有较好的识别效果。
场景文字识别模型训练方法装置

[发明专利]人脸图像的情绪确定方法、装置、电子设备及存储介质-CN202110580830.6在审
发明人：石家赫;李亚利;王生进 -专利权人：清华大学
申请日： 2021-05-26 - 公布日： 2021-08-31 - 主分类号： G06K9/00 文献下载
摘要：本发明提供一种人脸图像的情绪确定方法、装置、电子设备及存储介质，其中所述方法包括：对待分析人脸图像进行卷积计算，提取所述待分析人脸图像的全图特征；对所述全图特征进行解耦，得到多个人脸部件的特征；基于动态融合依据状态，动态融合所述多个人脸部件的特征，形成高层次语义特征；基于所述高层次语义特征和语言生成模型，以逐词预测的方式生成情绪描述语句，提升了所生成的情绪描述语句的质量。
图像情绪确定方法装置电子设备存储介质

[发明专利]基于无监督学习的行人再识别方法及系统-CN202010082628.6在审
发明人：王重道;王生进 -专利权人：清华大学
申请日： 2020-02-07 - 公布日： 2021-08-13 - 主分类号： G06K9/00 文献下载
摘要：本发明实施例提供了一种基于无监督学习的行人再识别方法及系统，首先获取包含有若干行人的两个待识别视频帧；然后将两个待识别视频帧输入至行人再识别模型，由行人再识别模型确定两个待识别视频帧中是否包含有同一行人。本发明实施例中采用的行人再识别模型基于深度卷积神经网络构建，且对行人再识别模型进行训练时，确定包含有若干行人的两个样本视频帧之间行人的循环分配矩阵，基于循环分配矩阵，确定优化损失函数。整个训练过程中并不需要任何额外算法模块或间接的监督信号，如行人跟踪模块或聚类算法等，可以直接从无标注的样本视频帧中学习行人特征，实现行人再识别，简化了行人再识别模型的整个训练过程，且使得行人再识别的准确性更高。
基于监督学习行人识别方法系统

[发明专利]一种稀疏光场重建方法及装置-CN202110485198.7在审
发明人：方璐;季梦奇;张晋之;王生进 -专利权人：清华大学
申请日： 2021-04-30 - 公布日： 2021-07-16 - 主分类号： G06T7/557 文献下载
摘要：本发明实施例公开了一种稀疏光场重建方法，包括：根据稀疏光场信息中的二维图像的特征相似性提取目标物体的初始轮廓；建立目标物体与动态三维场景之间的映射关系；映射关系包括至少一个局部映射关系；局部映射关系表征目标物体一个表面与动态三维场景之间的映射关系；根据映射关系计算目标物体每个表面的几何信息与色彩信息；根据目标物体各表面的几何信息与色彩信息建立目标物体的大场景全局表面模型与三维图像。本发明实施例提供的稀疏光场重建方法，通过构建并求解目标物体表面与动态三维场景之间的映射关系，利用稀疏视角的二维图像数据实现了对目标物体的大场景全局表面模型与三维图像的重建，降低了对三维几何标注数据的依赖和存储复杂度，并提高了光场重建精度与效率。
一种稀疏重建方法装置

1
2
3
4
下一页»
尾页
共 46 条