[发明专利]基于多模态交互融合网络的图文情感分析方法及系统有效
| 申请号: | 202110412323.1 | 申请日: | 2021-04-16 |
| 公开(公告)号: | CN113158875B | 公开(公告)日: | 2022-07-01 |
| 发明(设计)人: | 甘臣权;冯庆东;付祥;张祖凡 | 申请(专利权)人: | 重庆邮电大学 |
| 主分类号: | G06V30/413 | 分类号: | G06V30/413;G06V30/19;G06V10/80;G06V10/82;G06N3/04;G06N3/08;G06F40/284 |
| 代理公司: | 北京同恒源知识产权代理有限公司 11275 | 代理人: | 赵荣之 |
| 地址: | 400065 *** | 国省代码: | 重庆;50 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 多模态 交互 融合 网络 图文 情感 分析 方法 系统 | ||
1.一种基于多模态交互融合网络的图文情感分析方法,其特征在于:包括以下步骤:
步骤一:对图文进行预处理,分离出文本和图像,并采用词嵌入技术处理文本,采用图像处理技术处理图像;
步骤二:使用空洞卷积神经网络、双向长短时记忆网络和注意力机制构建文本特征提取模块,使用深度卷积网络构建视觉特征提取模块;
步骤三:设计面向图文的多模态交互融合网络,并采用多个具有不同神经元的多模态交互融合网络建模不同粒度的图文相关性;所述设计面向图文的多模态交互融合网络,具体包括以下步骤:
对于文本特征T和视觉特征P,通过多模态交互融合网络获取交互后的图文特征X;
S301:通过输入门的门控机制控制文本特征和视觉特征中的相关信息参与特征交互,具体公式如下:
iT=σ(TWiT+biT)
iP=σ(PWiP+biP)
式中,σ(·)代表Sigmoid激活函数,Wr、br代表可训练权重和偏置,通过iT和iP确定文本特征和视觉特征中哪些相关信息将参与特征交互过程;
S302:将文本特征T和视觉特征P映射到输入空间,具体如下:
eT=TWeT+beT
eP=PWeP+beP
式中,Wr、br代表可训练权重和偏置,eT、eP代表输入空间中的文本特征和视觉特征
S303:得到文本特征和视觉特征中的有效交互信息:
e'T=eT*iT
e'P=eP*iP
式中,e'T和e'P分别代表有效文本交互特征和有效视觉交互特征;
S304:将文本特征和视觉特征,以及有效的文本交互特征和视觉交互特征,输入到交互空间中,通过余弦相似度计算不同模态特征之间的相关性:
式中,αp2t代表视觉特征与文本特征的相似性,αt2p代表文本特征与视觉特征的相似性;
S305:将输入的文本特征和视觉特征映射到输出空间,计算备选的输出特征:
式中,和表示输出空间中的备选文本特征和备选视觉特征,和表示可训练权重,和表示可训练偏置;
S306:根据有效交互特征得到注意力加权向量,用于去除输出特征中的冗余信息:
AT=softmax(e'T)
AP=softmax(e'P)
S307:根据以上信息建模特征之间的互补性和一致性,并得到有效特征和互补特征,输出空间中交互后的特征表示为:
式中,CT和CP代表输出空间中交互后的文本和视觉特征;
S308:通过输出门的门控机制确定输出哪些图文信息,并建模特征之间的差异性,以消除特征中的冗余信息:
OT=σ(TWoT+boT)
OP=σ(PWoP+boP)
式中,OT和OP代表多模态交互融合模块,WoT和WoP表示可训练权重,boT和boP表示可训练偏置;
S309:根据输出门和输出空间中的特征,可得到输出特征:
T'=OT*tanh(CT)
P'=OP*tanh(CP)
式中,T'和P'为输出的文本特征和视觉特征;
S310:融合h个交互融合模块的输出并生成图文特征:
式中,Wr代表可训练权重,[,]代表串联操作;
步骤四:融合不同粒度的图文特征,并通过多层感知机获取图文情感倾向;
步骤五:使用交叉熵作为损失函数,并使用带有热启动的Adam优化器训练模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110412323.1/1.html,转载请声明来源钻瓜专利网。





