[发明专利]基于优化BERT模型的多模态深度特征抽取方法及系统在审
| 申请号: | 202210493651.3 | 申请日: | 2022-05-07 | 
| 公开(公告)号: | CN114821088A | 公开(公告)日: | 2022-07-29 | 
| 发明(设计)人: | 吴珺;朱天亮;郑欣丽;王春枝;董佳明;袁子健;周显敬;刘虎;李天意;朱嘉辉 | 申请(专利权)人: | 湖北工业大学;武汉卓尔信息科技有限公司 | 
| 主分类号: | G06V10/40 | 分类号: | G06V10/40;G06V10/80;G06V10/82;G06K9/62;G06N3/04;G06N3/08 | 
| 代理公司: | 北京金智普华知识产权代理有限公司 11401 | 代理人: | 张晓博 | 
| 地址: | 430068 湖*** | 国省代码: | 湖北;42 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 基于 优化 bert 模型 多模态 深度 特征 抽取 方法 系统 | ||
1.一种基于优化BERT模型的多模态深度特征抽取方法,其特征在于,所述基于优化BERT模型的多模态深度特征抽取方法包括:
步骤一,数据处理阶段:多模态数据特征选取,以及数据的预处理工作;
步骤二,BERT模型优化阶段:对原始BERT模型中的多头自注意力机制和前向传播层进行优化;
步骤三,特征融合阶段:对经过优化后的BERT模型处理后的文本特征和经过LSTM网络处理后的音频特征进行基于自注意力机制的张量融合,得到文本和音频特征的融合特征;
步骤四,结果输出阶段:对融合后的特征进行分类,产生最终结果。
2.如权利要求1所述的基于优化BERT模型的多模态深度特征抽取方法,其特征在于,所述步骤一中的多模态数据为针对于视频信息的数据,将视频分解为语音、文本信息。
3.如权利要求2所述的基于优化BERT模型的多模态深度特征抽取方法,其特征在于,在将视频信息转化为文本和音频信息时,将文本信息和音频信息分解成以单词为最小单位,将已经分割文本和音频信息进行词水平的对齐工作,一个词向量对应于一个音频向量。
4.如权利要求1所述的基于优化BERT模型的多模态深度特征抽取方法,其特征在于,所述步骤二BERT模型优化阶段具体包括:
(1)在原始BERT中,对于预训练后的词向量进行固定头数的多头自注意力机制过程;在优化后的结构中,使用递进的层数进行特征抽取,实现信息的逐层传递。
(2)使用自定义的门机制结构替代原有的BERT前向传播层,实现对信息的过滤作用。
5.如权利要求1所述的基于优化BERT模型的多模态深度特征抽取方法,其特征在于,所述步骤三特征融合阶段具体包括:
1)得到经过优化后的BERT模型处理后的文本特征;
2)使用基于自注意力机制的双层LSTM网络实现对音频数据的处理;
3)通过张量融合模型,对文本和音频数据进行融合。
6.如权利要求1所述的基于优化BERT模型的多模态深度特征抽取方法,其特征在于,所述步骤四结果输出阶段具体包括:
(1)将融合后的特征添加残差模块和进行层正则化,用与和全连接层相连;
(2)通过全连接网络,来实现由大特征维度到单一维度的过程,其最后结果产生一个值;
(3)将值映射到一个与样本标签相对应的区间,根据与标本标签的差值大小来实现进一步通过反向传播过程优化网络。
7.一种用于实施权利要求1~6任意一项所述的基于优化BERT模型的多模态深度特征抽取方法的基于优化BERT模型的多模态深度特征抽取系统,其特征在于,所述基于优化BERT模型的多模态深度特征抽取系统包括:
数据处理模块,用于多模态数据特征选取,以及数据的预处理工作;
BERT模型优化模块,用于对原始BERT模型中的多头自注意力机制和前向传播层进行优化;
特征融合模块,用于对经过优化后的BERT模型处理后的文本特征和经过LSTM网络处理后的音频特征进行基于自注意力机制的张量融合,得到多模态的融合特征;
结果输出模块,用于对融合后的特征进行分类,产生最终结果。
8.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行利要求1~6任意一项所述的基于优化BERT模型的多模态深度特征抽取方法。
9.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行利要求1~6任意一项所述的基于优化BERT模型的多模态深度特征抽取方法。
10.一种信息数据处理终端,其特征在于,所述信息数据处理终端用于实现权利要求1~6任意一项所述的基于优化BERT模型的多模态深度特征抽取方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北工业大学;武汉卓尔信息科技有限公司,未经湖北工业大学;武汉卓尔信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210493651.3/1.html,转载请声明来源钻瓜专利网。





