[发明专利]基于跨模态自监督学习的主动说话人识别方法在审

申请号：	202210120706.6	申请日：	2022-02-09
公开（公告）号：	CN114519880A	公开（公告）日：	2022-05-20
发明（设计）人：	张科航;冯瑞;张玥杰	申请（专利权）人：	复旦大学
主分类号：	G06V40/16	分类号：	G06V40/16;G06K9/62;G06N3/04;G06N3/08
代理公司：	上海德昭知识产权代理有限公司 31204	代理人：	程宗德
地址：	200433 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供一种基于跨模态自监督学习的主动说话人识别方法，通过利用视频的同步性特征来自动划分正负样本对用于训练，使得模型能够在无需人工标注的情况下训练至合适的参数，进一步，采用光流法追踪像素点在时间维度上的运动轨迹，通过计算轨迹上的注意力值的平均值可以得到整合后的注意力图，在注意力图上寻找注意力峰值的同时对其周围的区域进行非极大值抑制，能够方便准确地获取单帧注意力图上的人脸位置，通过沿着光流的轨迹反向投影，可准确获得原图中每一帧图片的人脸位置，通过利用人脸特征可计算与音频信号的余弦相似度，用预定的阈值过滤，从而获得能够对主动说话人图像以及非主动说话人图像同时进行高精度识别的主动说话人识别模型。
搜索关键词：	基于跨模态监督学习主动说话识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

暂无信息

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于复旦大学，未经复旦大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/202210120706.6/，转载请声明来源钻瓜专利网。

上一篇：一种智能物联网控制平台及其控制方法
下一篇：一种设备使用寿命预测方法

同类专利

专利分类

G 物理

G06 计算；推算；计数

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于跨模态自监督学习的主动说话人识别方法在审

专利文献下载