[发明专利]基于藏文的多模态情感计算方法及系统在审
申请号: | 201910376036.2 | 申请日: | 2019-05-07 |
公开(公告)号: | CN110083716A | 公开(公告)日: | 2019-08-02 |
发明(设计)人: | 田芳;梁丽;孙本旺 | 申请(专利权)人: | 青海大学 |
主分类号: | G06F16/45 | 分类号: | G06F16/45;G06K9/62 |
代理公司: | 北京久诚知识产权代理事务所(特殊普通合伙) 11542 | 代理人: | 余罡 |
地址: | 810000 青海省*** | 国省代码: | 青海;63 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 藏文 多模态 情感分析 情感语料库 分类 情感计算 情感识别 高层 融合 采集视频信号 信息处理能力 自然语言处理 空白状态 人工智能 视频特征 文本特征 文本信息 语音特征 语音信号 三模 语料 服务器 填补 智能 学习 | ||
本发明实施例提供了一种基于藏文的多模态情感计算方法、系统及服务器。本发明实施例的方法中,首先,获取待分类的藏文数据,并从该藏文数据中采集视频信号、语音信号和文本信息,然后,分别提取出高层视频特征、高层语音特征和文本特征,并基于深度学习模型进行学习,获得高层融合特征,最后,基于SVM在分类情感语料库中将高层融合特征进行分类后,存入分类情感语料库。从而可以填补藏文在情感分析中的空白状态,为藏文多模态情感分析提供基础语料,有利于藏文多模态情感分析的发展,还可以推动藏文的自然语言处理能力和智能情感识别能力,提高藏文的人工智能信息处理能力,另外在三模态相互融合的情况下,可有效提升藏文数据的情感识别率。
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于藏文的多模态情感计算方法及系统。
背景技术
情感语料库是情感分析技术的基础,目前以单模态的情感语料库较多而且较全备。单模态语料库以文本、语音、人脸表情为主,有些语料库涉及身体手势、生理数据等。但无论是哪一种单模态语料库在进行情感识别时,均具有各自的局限性,所以构建多模态情感语料库是极为必要的。
而藏文作为一种重要的语言在情感分析基本处于空白状态,基于藏文的多模态情感语料库的构建可以为藏文多模态情感分析提供基础语料,有利于藏文多模态情感分析的发展,还可以推动藏文的自然语言处理能力和智能情感识别能力,提高藏文的人工智能信息处理能力。
发明内容
有鉴于此,本发明实施例提供了一种基于藏文的多模态情感计算方法、系统及服务器。
第一方面,本发明实施例提供了一种基于藏文的多模态情感计算方法,该方法包括:
获取待分类的藏文数据,并从该藏文数据中采集视频信号、语音信号和文本信息;
从所述视频信号、语音信号和文本信息中分别提取出高层视频特征、高层语音特征和文本特征;
基于深度学习模型对高层视频特征、高层语音特征和文本特征进行学习,获得高层融合特征;
基于SVM在分类情感语料库中将所述高层融合特征进行分类。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述分类情感语料库通过如下方法进行构建:
采集原始藏文数据;
基于预设数据结构将所述原始藏文数据切分并处理为视频数据、语音数据和文本数据;
对所述视频数据、语音数据和文本数据进行情感类别标记后,存入分类情感语料库。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,从所述视频信号中提取出高层视频特征,具体包括:
对所述视频信号进行分帧处理后,将按照时序将相邻两帧图像合并为一张帧图像;
基于人脸识别算法对全部所述帧图像进行人脸检测以识别出人脸图像;
对人脸图像进行纹理特征提取,以获得高层视频特征。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,从所述语音信号中提取出高层语音特征,具体包括:
对所述语音信号进行预处理后,通过语音分析工具进行分析梅尔频率倒谱的特征提取,以获得高层语音特征。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,通过深度学习模型对高层视频特征、高层语音特征和文本特征进行学习,得出高层融合特征,具体包括:
将同一藏文数据的高层视频特征、高层语音特征和文本特征三种模态拼接为统一特征向量,以得出三模态的高层融合特征;以及,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青海大学,未经青海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910376036.2/2.html,转载请声明来源钻瓜专利网。