[发明专利]基于优化BERT模型的多模态深度特征抽取方法及系统在审
| 申请号: | 202210493651.3 | 申请日: | 2022-05-07 | 
| 公开(公告)号: | CN114821088A | 公开(公告)日: | 2022-07-29 | 
| 发明(设计)人: | 吴珺;朱天亮;郑欣丽;王春枝;董佳明;袁子健;周显敬;刘虎;李天意;朱嘉辉 | 申请(专利权)人: | 湖北工业大学;武汉卓尔信息科技有限公司 | 
| 主分类号: | G06V10/40 | 分类号: | G06V10/40;G06V10/80;G06V10/82;G06K9/62;G06N3/04;G06N3/08 | 
| 代理公司: | 北京金智普华知识产权代理有限公司 11401 | 代理人: | 张晓博 | 
| 地址: | 430068 湖*** | 国省代码: | 湖北;42 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 基于 优化 bert 模型 多模态 深度 特征 抽取 方法 系统 | ||
本发明属于多模态数据特征抽取技术领域,公开了一种基于优化BERT模型的多模态深度特征抽取方法及系统,数据处理阶段,多模态数据特征选取,以及数据的预处理工作;BERT模型优化阶段,对原始BERT模型中的多头自注意力机制和前向传播层进行优化;特征融合阶段;结果输出阶段。本发明能够进行深层次的特征抽取,使用层次化多头注意力机制实现对特征的层次抽取,使用自定义的门机制结构替换BERT模型中的中间层,实现对信息的过滤,最后通过基于自注意力机制的张量融合模型进行多模态特征的融合,最后实现一种对多态情感信息准确分类的模型,本发明提高了BERT的特征抽取能力,具有的多模态特征抽取能力更强。
技术领域
本发明属于多模态数据特征抽取技术领域,尤其涉及一种基于优化BERT模型的多模态深度特征抽取方法及系统。
背景技术
目前,在短视频兴起的现在,多模态情感分析成为了一个很具有新意的方向。相比与对文本进行分析和处理的自然语言处理领域和对图像进行分析的计算机视觉领域,多模态则是将两者甚至是多者(声音等)联合起来进行分析。分析出短视频具有的情感或者其他特征,不仅能够为平台进行个性化定制服务,还能根据用户所上传的视频进行分析,了解大众对某一话题的舆论走向。
目前针对于多模态情感分析的方法大多都采用的基于LSTM和BERT的模型,因为对于多模态的数据分析而言,文本相比于其他模态而言,携带的信息量更多。利用图片或者声音等模态来弥补文本模态分析的不足,例如遇到一些具有讽刺性的话语,正话反说、反话正说或者文本词语较少等情况,利用其它模态的特征能一定程度上起到提高分类的作用。
随着2019年Transformer的提出,在自然语言处理领域很快就引起了一股热潮。随之而来的是各种优化后的模型,例如BERT、ALBERT等模型,在文本分析上具有更强大的分析能力。但是在现有技术中,大多数方式只是将BERT模型处理文本分析,利用BERT的输出层,将输出层作为文本的特征向量,很少有对BERT内部模型进行直接优化后的。从BERT内部结构中,可以发现还可以对部分内容进行优化,并且实验表明具有一定层度上的提升。
因此,本发明提出了一种基于优化BERT模型的多模态深度特征抽取方法,提高了BERT的特征抽取能力,相比于原始的BERT模型,其具有的多模态特征抽取能力更强。
通过上述分析,现有技术存在的问题及缺陷为:
现有的多模态深度特征抽取方式对视频分解的语音、文本信息特征抽取能力较差,准确度低。
发明内容
针对现有技术存在的问题,本发明提供了一种基于优化BERT模型的多模态深度特征抽取方法及系统。
本发明是这样实现的,一种基于优化BERT模型的多模态深度特征抽取方法包括:
步骤一,数据处理阶段:多模态数据特征选取,以及数据的预处理工作;
步骤二,BERT模型优化阶段:对原始BERT模型中的多头自注意力机制和前向传播层进行优化;
步骤三,特征融合阶段:对经过优化后的BERT模型处理后的文本特征和经过LSTM网络处理后的音频特征进行基于自注意力机制的张量融合,得到多模态(文本和音频特征)的融合特征;
步骤四,结果输出阶段:对融合后的特征进行分类,产生最终结果。
进一步,所述步骤一中的多模态数据为针对于视频信息的数据。
进一步,所述步骤一数据处理阶段中,将视频分解为语音、文本信息。
进一步,在将视频信息转化为文本和音频信息时,将文本信息和音频信息分解成以单词为最小单位,将已经分割文本和音频信息进行词水平的对齐工作,一个词向量对应于一个音频向量。
进一步,所述步骤二BERT模型优化阶段具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北工业大学;武汉卓尔信息科技有限公司,未经湖北工业大学;武汉卓尔信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210493651.3/2.html,转载请声明来源钻瓜专利网。





