[发明专利]一种音视频多模态情感分类方法及系统有效
申请号: | 202110646620.2 | 申请日: | 2021-06-10 |
公开(公告)号: | CN113408385B | 公开(公告)日: | 2022-06-14 |
发明(设计)人: | 岑敬伦;李志鹏;青春美;罗万相 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06V40/16 | 分类号: | G06V40/16;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08;G10L15/26;G10L25/03;G10L25/24;G10L25/30;G10L25/63 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 林梅繁 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视频 多模态 情感 分类 方法 系统 | ||
本发明涉及语音和图像处理、模式识别领域,为一种音视频多模态情感分类方法及系统,其方法包括步骤:对原始视频数据的处理与计算,得到视频数据样本、音频数据样本及文本特征样本;构建情感特征提取网络,分别对视频数据样本、音频数据样本及文本特征样本进行特征提取,获得多模态中的视觉模态特征、音频特征及文本特征;将提取到的视觉模态特征、音频特征及文本特征进行维度统一,输入到张量融合网络中进行融合学习,最后进行分类输出多模态情感分类概率结果。本发明能够对跨模态之间的情感信息进行有效的整合,对视频、音频及文本进行时空高维度上的特征提取,拼接成多模态特征向量,再融合学习并进行情感分类。
技术领域
本发明涉及语音和图像处理、模式识别领域,具体为一种基于开源深度学习框架的音视频多模态情感分类方法及系统。
背景技术
随着5G时代的到来,在现有的以短视频为代表的新兴互联网娱乐产业发展的基础上,网速制约的解除将使短视频进一步成为新的主流信息载体。随之而来的是以视频为载体的数据量的爆炸式增长,“信息过载”已经成为了不可避免的问题。基于信息内容的个性化推荐系统正起着越来越重要的作用,因而对于视频的标签化描述和分类的需求也日益加剧。其次,由于4G、5G网络的不断普及以及活跃在线用户数量的增加,网络上出现的视频质量良莠不齐,对音视频等多媒体文件的审查工作尤为重要,智能的音视频自动化分类系统将会对互联网信息的过滤工作带来极大的帮助。
与此同时,在这种“信息过载”的现状下,好的个性化推荐将能够很好的提升用户体验,提高用户使用产品的效率。对于自媒体社交平台而言,这意味着能更好的留住用户,进一步扩大竞争优势。情感作为音视频等多媒体文件中一项重要的分类依据,在个性化推荐系统的分类参考上起着重要的作用,因为对此类基于情感的分类算法的需求日益增大。
一个智能化的视频平台的高层次目标需要的是能理解用户的情感,实现能为用户提供基于情感的筛选功能以及更加个性化的内容推荐功能,为青少年模式提供自动过滤恐惧、悲伤等负面情感视频内容的过滤功能等。因此视频情感分析在视频创作全民化的现今有着重要的社会意义。
现有的视频情感分析大多是以复杂的神经网络为基础进行的,对视频中语音和表情信息进行提取和分析。对音视频中的人脸表情特征、语音信息和文本信息特征的主流提取方法主要包括人脸表情的变化特征、人脸关键点位置、语音相关的频谱特性、韵律特征、峰值、均值、过零率、文本的词向量特征等。
于2020年6月5日公开的发明申请CN111242155A,公开了一种基于多模深度学习的双模态情感识别方法,使用两个深度卷积神经网络进行高层特征提取,采用全连接层构成的融合网络,实现对音视频情感信息的融合。该方法能够构建出高层次的音视频特征表示来用于情感分类,使得该发明能够提高音视频情感识别的性能。
尽管如此,该项发明申请在数据处理方式、特征的提取与表达、模态间的时间关联性等方面仍存在些许的不足之处:
1、该项发明申请在特征的提取上,只采用了深度卷积神经网络对人脸的表情图片及语音的语谱图进行高层次的特征提取。对于人脸的表情而言,微笑的表情变化差异不足以体现于高层特征中。
2、对于视频的感情而言,视频中的人物在情感的表达与决定性上占有绝大部分的权重。该发明申请只将整体特征输入到卷积神经网络中,通过卷积来提取高维特征,缺少对内容局部的关注。
3、该项发明申请所提出的双模态的情感识别方法中,只用到了音频与人脸表情信息。对于音频特征的提取做法为单个音频样本提取一个特征,而对于每一张关键帧图片都提取人脸表情特征。在时间维度上,音频为一段时间内的连续变化而图片则为离散的关键帧。
4、对于音视频而言(尤其是对话中),语音的文本信息最能表达出情感,因而在音视频的多模态融合情感识别中,语音文本中的信息不应该被忽略。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110646620.2/2.html,转载请声明来源钻瓜专利网。