[发明专利]注视目标估计的方法和装置、电子设备、神经网络结构有效
申请号: | 202110331364.8 | 申请日: | 2021-03-29 |
公开(公告)号: | CN112734820B | 公开(公告)日: | 2021-08-03 |
发明(设计)人: | 於其之;金天磊 | 申请(专利权)人: | 之江实验室 |
主分类号: | G06T7/50 | 分类号: | G06T7/50;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 应孔月 |
地址: | 310023 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 注视 目标 估计 方法 装置 电子设备 神经网络 结构 | ||
1.一种注视目标估计的方法,其特征在于,包括:
获取场景图像和所述场景图像中待处理人物的头部位置掩膜,从所述场景图像和所述头部位置掩膜提取场景特征和多层中间特征;
将所述场景特征依次进行深度估计及多次上采样后与所述多层中间特征融合,获得深度辅助特征;
根据所述头部位置掩膜从所述场景图像中获取头部图像,再从所述头部图像提取头部特征;
根据所述头部特征计算视线辅助特征,将所述头部特征与所述视线辅助特征融合,获得视线特征;
将所述场景特征与所述视线特征依次进行拼接、解码后与所述深度辅助特征融合,融合后进行特征转换输出注视目标位置。
2.根据权利要求1所述的方法,其特征在于,从所述场景图像和所述头部位置掩膜提取场景特征和多层中间特征,包括:
将所述场景图像和所述头部位置掩膜提供给场景卷积网络,其中所述场景卷积网络为多层次主干网络,所述场景卷积网络末端输出场景特征;
输出所述多层次主干网络不同层次的特征,获得多层中间特征。
3.根据权利要求1所述的方法,其特征在于,将所述场景特征依次进行深度估计及多次上采样后与所述多层中间特征融合,获得深度辅助特征,包括:
将所述场景特征提供给深度估计卷积网络进行深度估计;
将所述深度估计卷积网络的输出提供给多个相连的上采样卷积网络;
将所述多层中间特征与所述多个相连的上采用卷积网络的多个输出依次分别融合,获得深度辅助特征。
4.根据权利要求3所述的方法,其特征在于,还包括:将所述深度辅助特征提供给第一特征转换网络进行特征转换,获得场景的深度图像。
5.根据权利要求1所述的方法,其特征在于,将所述场景特征与所述视线特征依次进行拼接、解码后与所述深度辅助特征融合,融合后进行特征转换输出注视目标位置,包括:
将所述场景特征与所述视线特征进行拼接;
将所述拼接的特征提供给解码器进行解码,所述解码器由多个转置卷积组成;
将所述解码的特征与所述深度辅助特征进行融合;
将所述融合的特征提供给第三特征转换网络进行特征转换输出注视目标热图;
在所述目标热图中取最大值所在的位置为注视目标位置。
6.根据权利要求1所述的方法,其特征在于,还包括:将所述视线辅助特征提供给第二特征转换网络进行特征转换,输出相对位置。
7.一种注视目标估计的装置,其特征在于,包括:
第一特征提取模块,用于获取场景图像和所述场景图像中待处理人物的头部位置掩膜,从所述场景图像和所述头部位置掩膜提取场景特征和多层中间特征;
第二特征提取模块,用于将所述场景特征依次进行深度估计及多次上采样后与所述多层中间特征融合,获得深度辅助特征;
第三特征提取模块,用于根据所述头部位置掩膜从所述场景图像中获取头部图像,从所述头部图像提取头部特征;
第四特征提取模块,用于根据所述头部特征计算视线辅助特征,将所述头部特征与所述视线辅助特征融合,获得视线特征;
输出模块,用于将所述场景特征与所述视线特征依次进行拼接、解码后与所述深度辅助特征融合,融合后进行特征转换输出注视目标位置。
8.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110331364.8/1.html,转载请声明来源钻瓜专利网。