[发明专利]基于解纠缠表达学习的跨模态生物特征匹配方法及系统有效
| 申请号: | 202010089856.6 | 申请日: | 2020-02-13 |
| 公开(公告)号: | CN111310648B | 公开(公告)日: | 2023-04-11 |
| 发明(设计)人: | 卢孝强;宁海龙;郑向涛;刘康 | 申请(专利权)人: | 中国科学院西安光学精密机械研究所 |
| 主分类号: | G06V40/16 | 分类号: | G06V40/16;G06V10/75;G06V10/774;G10L25/51;G06V10/82 |
| 代理公司: | 西安智邦专利商标代理有限公司 61211 | 代理人: | 汪海艳 |
| 地址: | 710119 陕西省西*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 纠缠 表达 学习 跨模态 生物 特征 匹配 方法 系统 | ||
本发明涉及一种基于解纠缠表达学习的跨模态生物特征匹配方法及系统,解决由于不同模态数据(人脸和声音)的类内差异较大而带来的匹配精度低的问题。其实现步骤为:(1)划分训练集,验证集和测试集;(2)提取训练集和验证集中人脸嵌入和声音嵌入;(3)通过保留人脸和声音之间的相同身份信息来学习身份因子;(4)通过最小化模态内的差异来获得模态依赖因子;(5)对验证集计算性能验证指标,判断模型是否训练完成;(6)统计实验结果,在测试集上进行跨模态认证、跨模态匹配和跨模态检索,计算相关指标分数。本发明极大程度地提高了人脸和声音跨模态生物特征匹配的精度,可用于人脸和声音的跨模态认证、跨模态匹配和跨模态检索等任务。
技术领域
本发明属于人工智能技术领域,特别涉及一种基于解纠缠表达学习的身份信息挖掘技术,可用于人脸和声音的跨模态认证、跨模态匹配和跨模态检索等任务。
背景技术
人脸和声音的跨模态生物特征匹配旨在确定现有声音数据库中哪些声音与哪些人脸匹配。该任务基于以下事实:人类将其身份信息内部化为其独特的人脸和声音,这已经在神经认知和计算机视觉领域得到了广泛研究。有关人脸和声音的跨模态生物特征匹配相关子任务包括:1)人脸和声音的跨模态认证,2)人脸和声音的跨模态匹配,3)人脸和声音的跨模态检索。人脸和声音的跨模态认证子任务是用于确定一个图像和一条声音片段是否来自同一个人。人脸和声音的跨模态匹配子任务是在给定声音(或图像)时从N个人脸(或声音)中找到对应的人脸(或声音)。人脸和声音的跨模态检索子任务是在给定一个声音(或人脸)时,对已有的人脸(或声音)集合进行排名,让与给定声音(或人脸)匹配的人脸(或声音)排名靠前。这三个相关的子任务有望应用在许多情况下,例如在恐怖袭击和反动游行的活动中,识别说话的蒙面人和未说话的露脸的人。
目前,已有的人脸和声音的跨模态生物特征匹配主要有两类:
一是基于硬性匹配的方法。这种方法的网络通路数目随着需要匹配的人脸(或声音)的数目变化而变化。A.Nagrani等人在文献“Arsha Nagrani,Samuel Albanie,andAndrew Zisserman.Seeing voices and hearing faces:Cross-modalbiometricmatching,in Proceedings ofthe IEEE Conference on Computer Vision andPattern Recognition,pages 8427–8436,2018”中提出了一种基于硬性匹配的人脸和声音的跨模态生物特征匹配方法。该方法设计了N+1个网络通路用于学习给定的一个声音(或图像)和N个人脸(或声音)的特征,最终将学习到的特征进行拼接融合进行N分类任务,从而挑选出与给定的声音(或图像)相匹配的人脸(或声音)。这种基于硬性匹配的人脸和声音的跨模态生物特征匹配方法虽然具有很强的可解释性,但是一旦需要匹配的人脸(或声音)的数目发生变化,网络结构也需要随之变化,并进行重新训练,因此具可拓展性比较差。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院西安光学精密机械研究所,未经中国科学院西安光学精密机械研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010089856.6/2.html,转载请声明来源钻瓜专利网。





