[发明专利]一种无约束环境下的细粒度凝视方向估计方法在审
申请号: | 202210622583.6 | 申请日: | 2022-06-02 |
公开(公告)号: | CN115131850A | 公开(公告)日: | 2022-09-30 |
发明(设计)人: | 黄金杰;马春雨 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G06V40/16 | 分类号: | G06V40/16;G06V20/40;G06V10/774;G06V10/82;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150080 黑龙江省哈尔*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 无约束 环境 细粒度 凝视 方向 估计 方法 | ||
一种无约束环境下的细粒度凝视估计方法,本发明涉及一种无约束环境下的细粒度凝视估计方法,旨在解决在普通单目相机下无约束光照和头部姿势的凝视估计精度不高的问题;具体步骤如下:首先利用帧间差分法提取普通网络摄像头拍摄被测者的关键帧图片,然后利用人脸三维检测重建模型(RetinaFace),提取图片中的人脸图像;最后利用双全连接层改进ResNet‑50深度学习网络模型,提取人脸图像中的空间凝视特征,两个全连接层及两个损失函数分别回归偏航和俯仰的注视角度。实验表明,该方法提高了每个注视角度的预测精度,改善了整体凝视预测的性能,并有效增强了注视模型的泛化能力。本发明应用于无约束环境下凝视方向估计。
(一)技术领域
本发明属于单目自然光视线跟踪领域,尤其涉及一种无约束环境下的细粒度凝视方向估计方法。
(二)背景技术
20世纪60年代,心理研究学家赤瑞特拉(Treicher)通过两个心理实验证实,人类获取外界信息的83%来源于视觉,而其他17%来源于嗅觉,听觉,触觉和味觉等。由此可见,人类眼睛蕴含了大量的信息,其中人类视线的方向和注视目标的注视点反映了人类注意力信息和大量行为信息。随着计算机视觉技术的发展和人工智能领域的兴起,人们的生活方式越来越趋向于智能化。使智能技术惠及更多的人群和领域,视线跟踪(gaze-tracking)技术已经成为各大研究机构和高校的重点研究方向之一。通过视线追踪技术估计人类注视方向或注视点在人机交互、军事、驾驶、游戏、医学诊断、虚拟现实等领域都有着巨大的应用。
极为丰富的眼动信息能够反映人类情绪的变化和行为动向,也是视觉任务的最直观体现。视线跟踪技术的主要研究内容是如何实时、客观、准确地记录使用者当前的视线方向或注视点位置。视线跟踪技术要求精确定位注视对象,但是由于眼睛总是处于运动中,即使在注视一个目标时,眼球为看清物体不停地进行轻微的抖动,并会伴有漂移、跳动和震颤,使得注视点的位置不是固定点,而是由围绕这一点的许多点组成的注视点点群。且长时间注视一个物体眼睛会产生疲劳,会导致眨眼次数增加,注视的位置跳动加大。而且头部姿势会导致眼睛注视点的巨大偏差;光照条件、应用环境背景及摄像头分辨率会影响人脸提取的精确度,进而影响图像的空间凝视特征的分析。综上因素给获得精确的视线方向或视线注视点带来了极大的挑战。
针对现有技术存在的问题,本发明提供一种无约束环境下的细粒度凝视方向估计方法。本发明方法针对自然光单目相机下头部自由运动的凝视估计,无论是实验室环境下还是户外环境下,经过两个全连接层和两个损失函数改进的ResNet-50对不同注视方向的回归,每个注视角度的精度都得以提高,实现了在无约束条件下注视方向估计的很高精度的预测,提高了的整体注视估计的精度。并且提高了网络模型的泛化能力。
(三)发明内容
本发明旨在提供一种无约束环境下的细粒度凝视方向估计方法,针对现有视线估计存在的问题,本发明通过两个全连接层和两个损失函数改进的ResNet-50可以对不同注视方向的回归。本发明方法能够在无约束环境下实现较高精度的注视方向预测,并且每个注视角度的精度都得以提高,提高了的整体注视估计的精度。
S1:图像采集是系统的基础部分。采集的图像要求是完整、稳定、清晰的,为后续对图像进行处理和运算打好基础。对于摄像头拍摄的视频流全部计算,耗费大量计算时间且降低系统检测的实时性能。对此,本发明中,我命使用帧间差分法先对视频流进行差分运算,然后对差分图像采用改进的汉宁窗口滤波,最后提取帧间变化较大的关键帧图像。
S2:人脸检测是实现估计的先决条件,人脸检测的精度和速度关乎视线估计的精度和实时性。鉴于改进的ResNet-34可以有效提取低分辨率人脸特征信息的特点将其作为人脸检测的主干网络;本发明采取ResNet-34作为特征提取层,利用特征金字塔结构,上采样不同特征层下不同分辨率的人脸,有效提取不同分辨率下的人脸特征信息;之后利用Inception结构融合多尺度特征图,进一步增加感受野区域获取全局特征,使得检测效果更精确。并使用多任务损失函数同时对人脸分类、人脸边界框、人脸关键点进行回归。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210622583.6/2.html,转载请声明来源钻瓜专利网。