[发明专利]一种基于注意力交叉和双路特征融合网络的注视估计检测算法在审
| 申请号: | 202310512890.3 | 申请日: | 2023-05-09 |
| 公开(公告)号: | CN116563681A | 公开(公告)日: | 2023-08-08 |
| 发明(设计)人: | 夏晨星;陶展鹏;葛斌;高修菊;崔建华;赵文俊;段秀真;周广澳 | 申请(专利权)人: | 安徽理工大学 |
| 主分类号: | G06V10/80 | 分类号: | G06V10/80;G06V40/18;G06V10/44;G06V10/82;G06N3/0464;G06N3/08;G06V40/16 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 232001 安徽*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 注意力 交叉 特征 融合 网络 注视 估计 检测 算法 | ||
本发明属于计算机视觉领域,提供了结合全局和局部信息的双路特征提取网络框架,包括以下步骤:1)利用卷积神经网络(CNN)和Transformer提出了一种新的方法来并行处理凝视估计,由此产生的架构CTA‑Net,充分发挥CNN在建模空间相关性方面的归纳偏置以及变压器在建模全局关系方面的强大能力。2)提出了一种互补的眼睛图像聚合凝视估计注意力机制ACFusion,该机制生成多个注意力特征图,进而实现注意力特征信息的聚合学习,用于双眼图像交互;3)引入了一种新的融合技术——DFA模块,用以充分融合不同编码器之间的特征信息,促进来自Transformer分支的全局信息,降低CNN特征可能含有的噪声,使得CTA‑Net更好地利用了这两种模型的优点;在公开的数据集上的实验数据表明了,此发明具有高效性和优越性。
技术领域:
本发明涉及计算机视觉领域,具体来说,涉及了基于基于注意力交叉和双路特征融合网络的注视估计检测算法。
背景技术:
本部分的陈述仅仅是涉及到了与本发明相关的背景技术,并不必然构成现有技术。
注视估计检测技术在计算机视觉领域中处于重要地位,用于估计其真实的注视方向和定位注视点,主要有基于构建模型和基于外观等方式。由于深度学习的发展和应用,基基于外观的方法最近引起了广泛的关注,它们只需要一个普通的RGB相机来捕捉图像,直接学习从面部外观到人类注视的映射函数。由于CNN(卷积神经网络)在学习非常复杂的映射函数方面展现出优越的能力,有人提出使用CNN来解决人眼外观在野外会受到头姿等各种因素的影响。
近年来,基于CNN进行注视估计的方法正蓬勃发展,自Zhang等人首次提出了从眼睛图像中估计注视方向的网络以来,基于CNN的方法已经为日常环境中的注视估计铺平了道路,然而这些方法只使用了单一眼睛的图像信息编码,忽略了头部姿态带来的辅助信息无法带来实际的需求。
人类的注视与眼球的信息密切相关,眼睛图像应该足以估计注视方向,但基于深度学习的方法可以利用来自其他面部区域的额外信息,比如头部的姿态信息等,对注视估计方向有着极佳的引导作用,实际上,眼睛图像提供了聚焦于注视的局部特征信息,而人脸图像提供了粗粒度特征的全局特征信息。因此如何充分利用面部特征和眼部特征结合来实现更精准的注视估计是一项重大的挑战。
基于CNN虽带来了不错的性能提升,但是该方法的注视估计目标检测方法在提取上下文信息时总是依赖利用不同填充率的空洞卷积操作,结合捕获的上下文信息来推理估计方向,然而,空洞卷积填充率的引入会造成局部信息丢失且独立的特征提取方法会造成上下文信息之间缺失相关性,因此很难保证不同感受野上下文信息的可靠性,这不利于在不同数据集间注视估计的检测。此外,如何利用多种模态数据之间的互补信息也是准确注视估计的关键问题。交叉注意力机制(Cross-Attention)可以实现眼部特征之间的融合。相较于单独的眼部数据融合,交叉融合更有利于信息的互补。
发明内容
为了缓解上述问题,我们提出了一个CNN+Transformer的双路特征融合框架CTA-Net,该框架显式嵌入全局上下文和局部信息用于凝视估计。具体来说,我们设计并行运行基于transformer和基于CNN的两个编码器,分别嵌入全局上下文和局部视觉信息,然后通过我们提出的DFA模块,将不同编码器的输出特征融合在一起,共同进行注视回归。此外,由于现有方法忽略了两只眼睛之间的相关性,单独处理眼睛图像以进行最终输出,因此在单眼图像中表示特征范围的能力有限,导致检测结果不佳。我们提出了一个用于凝视估计的眼睛图像聚合互补注意力模块,借助不同的组合方法和交互方法构建了一个高效的互补信息聚合模块ACFusion。具体而言,我们通过注意力机制生成多个注意力特征图,有效过滤特征通道中的冗余或噪声信息方法,通过与双目注意力特征的交互进一步增强特征内部的信息,从而提高凝视估计目标检测的性能。
本发明的技术方案是提供了基于双路特征融合网络和注意力交叉融合的注视估计算法,该方法包括以下步骤:
1.获取并整理用于训练和测试的注视估计数据集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽理工大学,未经安徽理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310512890.3/2.html,转载请声明来源钻瓜专利网。





