[发明专利]多模态数据自动清洗与标注方法与系统在审
申请号: | 202010525080.8 | 申请日: | 2020-06-10 |
公开(公告)号: | CN111767805A | 公开(公告)日: | 2020-10-13 |
发明(设计)人: | 刘青松;胡炳然 | 申请(专利权)人: | 云知声智能科技股份有限公司;厦门云知芯智能科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06F16/735;G06F16/783;G10L17/00 |
代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 安琪 |
地址: | 100000 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多模态 数据 自动 清洗 标注 方法 系统 | ||
本发明提供了多模态数据自动清洗与标注方法与系统,该多模态数据自动清洗与标注方法与系统结合视频中图像和音频这两种互补信息,来相互协作完成对视频多模态数据的自动清洗与标注工作,其具体能够从海量未标注的视频多模态数据中,清洗并标注出带有人物正脸信息的画面片段,以及同时标注出该画面片段中人物的说话状态和说话起始点信息,从而实现多模态信息的多样化的标注和提高多模态信息的标注性能。
技术领域
本发明涉及多模态数据处理的技术领域,特别涉及多模态数据自动清洗与标注方法与系统。
背景技术
视频数据属于多模态数据,视频数据中同时包括图像信息和音频信息这两种单一模态的数据信息。目前,在对视频数据进行处理的过程中,需要分别对其中的图像信息和音频信息进行独立的处理,但是由于该图像信息和该音频信息两者之间在时间上和场景内容上均存在关联性,上述独立处理的方式并不能有效地解决在视频这样的多模态场景中,对图像画面和音频信息进行相互协作标注的问题,其无法利用多模态信息提供多样化的标注信息和提高单一模态维度的标注性能。
发明内容
针对现有技术存在的缺陷,本发明提供多模态数据自动清洗与标注方法与系统,该多模态数据自动清洗与标注方法与系统通过人脸信息分析获得满足预设质量条件的有效人脸图像帧及其对应的时间戳信息、通过音频信息分析获得音频特征信息和说话人身份确定信息、以及通过综合与决策处理标注于视频中说话人说话状态和/或说话起始点信息;可见,该多模态数据自动清洗与标注方法与系统结合视频中图像和音频这两种互补信息,来相互协作完成对视频多模态数据的自动清洗与标注工作,其具体能够从海量未标注的视频多模态数据中,清洗并标注出带有人物正脸信息的画面片段,以及同时标注出该画面片段中人物的说话状态和说话起始点信息,从而实现多模态信息的多样化的标注和提高多模态信息的标注性能。
本发明提供多模态数据自动清洗与标注方法,其特征在于,所述多模态数据自动清洗与标注方法包括如下步骤:
步骤S1,人脸信息分析步骤,其用于对视频中的画面成分进行人脸识别,以此获得满足预设质量条件的有效人脸图像帧及其对应的时间戳信息;
步骤S2,音频信息分析步骤,其用于对视频中的音频成分进行分析,以此获得音频特征信息和说话人身份确定信息;
步骤S3,综合与决策处理步骤,其用于根据所述人脸图像帧、所述时间戳信息、所述音频特征信息和所述说话人身份确定信息,进行关于视频中说话人说话状态和/或说话起始点信息的标注;
进一步,在所述步骤S1中,所述人脸信息分析步骤具体包括,
步骤S101,从所述视频中分离出所述画面成分,并获取待识别的人脸特征信息,其中,所述人脸特征信息包括人脸五官信息和/或人脸轮廓信息;
步骤S102,将所述画面成分分解成若干图像帧,并从所述若干图像帧中识别摘选出包含所述人脸特征信息的人脸图像帧;
步骤S103,判断所述人脸图像帧是否满足预设图像分辨率条件和/或图像色调条件,若是,则将对应的人脸图像帧确定为有效人脸图像帧;
步骤S104,获取所述画面成分分解成所述若干图像帧对应的时间轴信息,并从所述时间轴信息中提取每一所述有效人脸图像帧对应的时间戳信息;
进一步,在所述步骤S2中,所述音频信息分析步骤具体包括,
步骤S201,从所述视频中分离出所述音频成分;
步骤S202,对所述音频成分进行VAD语音激活检测,以此获得关于所述音频成分的音频特征信息,其中,所述音频特征信息包括人物语音信息和环境声音信息;
步骤S203,对所述音频成分进行VPR声纹识别处理,以此获得关于所述音频成分的所有声纹识别信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云知声智能科技股份有限公司;厦门云知芯智能科技有限公司,未经云知声智能科技股份有限公司;厦门云知芯智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010525080.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置