[发明专利]注视目标估计的方法和装置、电子设备、神经网络结构有效
申请号: | 202110331364.8 | 申请日: | 2021-03-29 |
公开(公告)号: | CN112734820B | 公开(公告)日: | 2021-08-03 |
发明(设计)人: | 於其之;金天磊 | 申请(专利权)人: | 之江实验室 |
主分类号: | G06T7/50 | 分类号: | G06T7/50;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 应孔月 |
地址: | 310023 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 注视 目标 估计 方法 装置 电子设备 神经网络 结构 | ||
本发明公开了一种注视目标估计的方法和装置、电子设备、神经网络结构,该方法包括:获取场景图像和场景图像中待处理人物的头部位置掩膜,从场景图像和头部位置掩膜提取场景特征和多层中间特征;将场景特征依次进行深度估计及多次上采样后与多层中间特征融合,获得深度辅助特征;根据头部位置掩膜从场景图像中获取头部图像,再从头部图像提取头部特征;根据头部特征计算视线辅助特征,将头部特征与视线辅助特征融合,获得视线特征;将场景特征与视线特征依次进行拼接、解码后与深度辅助特征融合,融合后进行特征转换输出注视目标位置。本发明提升了单目图像中人物的注视目标估计的准确率,适用于提高人机交互系统的意图识别能力。
技术领域
本发明涉及计算机领域,尤其涉及一种注视目标估计的方法和装置、电子设备、神经网络结构。
背景技术
注视目标估计,即检测图像中给定人物所注视的目标,是人机交互系统的一项重要功能。人机交互系统通过估计人物的注视目标,能够更加准确的理解人物当前的兴趣点,以及更加准确的预测人物后续的行为。基于单目图像的注视目标估计的方法对图像采集设备要求较低,具有广泛的应用前景。
现有的基于单目图像的注视目标估计的方法的基本思路是沿视线的投影方向寻找显著目标。当沿视线的投影方向存在多个显著目标时,现有方法识别准确率较低,其原因是现有方法没有考虑视线与显著目标在深度方向的相对位置关系。
发明内容
本发明实施例的目的是提出一种注视目标估计的方法和装置、电子设备、神经网络结构,以解决当沿视线的投影方向存在多个显著目标时,现有的基于单目图像的注视目标估计的方法准确率较低的问题。
为了达到上述目的,本发明实施例所采用的技术方案来如下:
第一方面,本发明实施例提供一种注视目标估计的方法,包括:
获取场景图像和所述场景图像中待处理人物的头部位置掩膜,从所述场景图像和所述头部位置掩膜提取场景特征和多层中间特征;
将所述场景特征依次进行深度估计及多次上采样后与所述多层中间特征融合,获得深度辅助特征;
根据所述头部位置掩膜从所述场景图像中获取头部图像,再从所述头部图像提取头部特征;
根据所述头部特征计算视线辅助特征,将所述头部特征与所述视线辅助特征融合,获得视线特征;
将所述场景特征与所述视线特征依次进行拼接、解码后与所述深度辅助特征融合,融合后进行特征转换输出注视目标位置。
第二方面,本发明实施例提供一种注视目标估计装置,包括:
第一特征提取模块,用于获取场景图像和所述场景图像中待处理人物的头部位置掩膜,从所述场景图像和所述头部位置掩膜提取场景特征和多层中间特征;
第二特征提取模块,用于将所述场景特征依次进行深度估计及多次上采样后与所述多层中间特征融合,获得深度辅助特征;
第三特征提取模块,用于根据所述头部位置掩膜从所述场景图像中获取头部图像,从所述头部图像提取头部特征;
第四特征提取模块,用于根据所述头部特征计算视线辅助特征,将所述头部特征与所述视线辅助特征融合,获得视线特征;
输出模块,用于将所述场景特征与所述视线特征依次进行拼接、解码后与所述深度辅助特征融合,融合后进行特征转换输出注视目标位置。
第三方面,本发明实施例提供一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110331364.8/2.html,转载请声明来源钻瓜专利网。