[发明专利]基于藏文的多模态情感计算方法及系统在审
申请号: | 201910376036.2 | 申请日: | 2019-05-07 |
公开(公告)号: | CN110083716A | 公开(公告)日: | 2019-08-02 |
发明(设计)人: | 田芳;梁丽;孙本旺 | 申请(专利权)人: | 青海大学 |
主分类号: | G06F16/45 | 分类号: | G06F16/45;G06K9/62 |
代理公司: | 北京久诚知识产权代理事务所(特殊普通合伙) 11542 | 代理人: | 余罡 |
地址: | 810000 青海省*** | 国省代码: | 青海;63 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 藏文 多模态 情感分析 情感语料库 分类 情感计算 情感识别 高层 融合 采集视频信号 信息处理能力 自然语言处理 空白状态 人工智能 视频特征 文本特征 文本信息 语音特征 语音信号 三模 语料 服务器 填补 智能 学习 | ||
1.一种基于藏文的多模态情感计算方法,其特征在于,所述方法包括:
获取待分类的藏文数据,并从该藏文数据中采集视频信号、语音信号和文本信息;
从所述视频信号、语音信号和文本信息中分别提取出高层视频特征、高层语音特征和文本特征;
基于深度学习模型对高层视频特征、高层语音特征和文本特征进行学习,获得高层融合特征;
基于SVM在分类情感语料库中将所述高层融合特征进行分类。
2.根据权利要求1所述的方法,其特征在于,所述分类情感语料库通过如下方法进行构建:
采集原始藏文数据;
基于预设数据结构将所述原始藏文数据切分并处理为视频数据、语音数据和文本数据;
对所述视频数据、语音数据和文本数据进行情感类别标记后,存入分类情感语料库。
3.根据权利要求1所述的方法,其特征在于,从所述视频信号中提取出高层视频特征,具体包括:
对所述视频信号进行分帧处理后,将按照时序将相邻两帧图像合并为一张帧图像;
基于人脸识别算法对全部所述帧图像进行人脸检测以识别出人脸图像;
对人脸图像进行纹理特征提取,以获得高层视频特征。
4.根据权利要求1所述的方法,其特征在于,从所述语音信号中提取出高层语音特征,具体包括:
对所述语音信号进行预处理后,通过语音分析工具进行分析梅尔频率倒谱的特征提取,以获得高层语音特征。
5.根据权利要求1所述的方法,其特征在于,通过深度学习模型对高层视频特征、高层语音特征和文本特征进行学习,得出高层融合特征,具体包括:
将同一藏文数据的高层视频特征、高层语音特征和文本特征三种模态拼接为统一特征向量,以得出三模态的高层融合特征;以及,
通过自动编码器算法将同一藏文数据对应的高层视频特征与高层语音特征、高层视频特征与文本特征、高层语音特征与文本特征两种模态分别进行学习,以得出三种双模态高层融合特征;
通过自动编码器算法将同一藏文数据对应的高层视频特征、高层语音特征和文本特征分别进行学习,以得出三种单模态高层融合特征;
所述高层融合特征包括一种三模态的高层融合特征、三种双模态高层融合特征和三种单模态高层融合特征。
6.一种基于藏文的多模态情感计算系统,其特征在于,所述系统包括:
获取模块,用于获取待分类的藏文数据,并从该藏文数据中采集视频信号、语音信号和文本信息;
提取模块,用于从所述视频信号、语音信号和文本信息中分别提取出高层视频特征、高层语音特征和文本特征;
处理模块,用于基于深度学习模型对高层视频特征、高层语音特征和文本特征进行学习,获得高层融合特征;
分类模块,用于基于SVM在分类情感语料库中将所述高层融合特征进行分类。
7.如权利要求6所述的系统,其特征在于,还包括构建模块,具体用于:
采集原始藏文数据;
基于预设数据结构将所述原始藏文数据切分并处理为视频数据、语音数据和文本数据;
对所述视频数据、语音数据和文本数据进行情感类别标记后,存入分类情感语料库。
8.如权利要求6所述的系统,其特征在于,所述提取模块具体用于:
对所述视频信号进行分帧处理后,将按照时序将相邻两帧图像合并为一张帧图像;
基于人脸识别算法对全部所述帧图像进行人脸检测以识别出人脸图像;
对人脸图像进行纹理特征提取,以获得高层视频特征。
9.如权利要求6所述的系统,其特征在于,所述提取模块具体用于:
对所述语音信号进行预处理后,通过语音分析工具进行分析梅尔频率倒谱的特征提取,以获得高层语音特征。
10.如权利要求6所述的系统,其特征在于,所述处理模块具体用于:
将同一藏文数据的高层视频特征、高层语音特征和文本特征三种模态拼接为统一特征向量,以得出三模态的高层融合特征;以及,
通过自动编码器算法将同一藏文数据对应的高层视频特征与高层语音特征、高层视频特征与文本特征、高层语音特征与文本特征两种模态分别进行学习,以得出三种双模态高层融合特征;
通过自动编码器算法将同一藏文数据对应的高层视频特征、高层语音特征和文本特征分别进行学习,以得出三种单模态高层融合特征;
所述高层融合特征包括一种三模态的高层融合特征、三种双模态高层融合特征和三种单模态高层融合特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青海大学,未经青海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910376036.2/1.html,转载请声明来源钻瓜专利网。