[发明专利]一种基于文本-图片关系预训练的多模态推文命名实体识别的方法在审
申请号: | 202011116968.2 | 申请日: | 2020-10-19 |
公开(公告)号: | CN112257445A | 公开(公告)日: | 2021-01-22 |
发明(设计)人: | 翁芳胜;孙霖;王跻权;孙宇轩 | 申请(专利权)人: | 浙大城市学院 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/284;G06N3/04;G06N3/08 |
代理公司: | 杭州九洲专利事务所有限公司 33101 | 代理人: | 张羽振 |
地址: | 310015 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文本 图片 关系 训练 多模态推文 命名 实体 识别 方法 | ||
1.一种基于文本-图片关系预训练的多模态推文命名实体识别的方法,其特征在于,包括以下步骤:
步骤1、大规模数据收集:将推特100k数据集用作未标记多模式语料库;将彭博文本-图像关系数据集中的图文关系合并成文本-图像相关关系和文本-图像无关关系,并按照固定比例将彭博文本-图像关系数据集划分为训练集和测试集;并选用复旦大学的多模态推文数据集和Snap Research的MNER Twitter数据集作为数据基础;
步骤2、建立关系推断和视觉注意的预训练多模态网络模型,关系推断和视觉注意的预训练多模态网络模型包括:文本-图像关系门控网络、注意力导向的视觉上下文网络和视觉语言上下文网络;
步骤3、预训练任务;
步骤4、将预训练多模态网络模型用于多模态NER任务:使用biLSTM-CRF模型作为命名实体识别的基准模型来测试预训练多模态模型;将词嵌入ek输入biLSTM网络,条件随机场使用每个词嵌入ek的biLSTM隐藏向量ht来标记带有实体标签的序列;使用预训练多模态网络模型时,输入文本图像对后,将视觉语言上下文网络中每个嵌入的前向LSTM网络和后向LSTM网络的隐藏输出连接成为视觉语言上下文嵌入进行多模态NER任务时,将词嵌入ek替换成
2.根据权利要求1所述基于文本-图片关系预训练的多模态推文命名实体识别的方法,其特征在于:步骤2具体包括如下步骤:
步骤2.1、建立文本-图像关系门控网络:用基于语言和视觉特征融合的全连接层来完成文本-图像关系分类;从biLSTM网络中学习推文的语言特征;
步骤2.1.1、将单词和单词的字符嵌入的串联联合输入biLSTM网络,然后把bilSTM网络的前向输出和后向输出串联起来作为编码后的文本向量其中dt为文本向量ft的维度大小,1×dt为文本向量ft所属的向量空间大小;
步骤2.1.2、使用ResNet从图像中提取视觉特征fv;根据ResNet中最后一个卷积层的输出尺寸,在固定区域上使用平均池,并将整个图像表示为固定维数的向量fv;
步骤2.1.3、最后将编码后的文本向量和图像向量做点乘ft⊙fv,然后输入到FC层和softmax层,获得二分类和视觉上下文门控的分数sG;
步骤2.2、建立注意力导向的视觉上下文网络;
步骤2.2.1、设为给定图像的区域视觉特征,其中i=1,...,m,j=1,...n,r为区域特征,dv为维度大小,m×n×dv为ResNet中最后一个卷积层的输出尺寸,m×n为图像中的区域个数;
步骤2.2.2、使用缩放点乘注意力来捕捉与语言语境相关的局部视觉特征,缩放点乘注意力的定义为:
上式中,矩阵Q、矩阵K和矩阵V分别代表查询、键和值;dk是键的维数;
步骤2.2.3、使用语言查询向量Qs=ft作为查询,区域视觉特征Vr作为键和值;通过线性投影将语言查询向量Qs和区域视觉特征Vr转化为同一维度:和
步骤2.2.4、计算语言注意力其中Qs为语言查询向量,为转化维度后的语言查询向量Qs,为转化维度后的区域视觉特征Vr;并将单路注意扩展到多路注意力;将局部视觉上下文Vc的输出定义为:
上式(2)至式(3)中,Qs为语言查询向量,为转化维度后的语言查询向量Qs,为转化维度后的区域视觉特征Vr,Vc为局部视觉上下文,headi为局部视觉上下文的输出,i=1,...,h,h为局部视觉上下文输出的总个数;
步骤2.3、建立视觉语言上下文网络,使用biLSTM网络在推特100k数据集上学习视觉语言上下文嵌入;
步骤2.3.1、首先给定一个视觉向量和一个长度为T的序列{wt},t=1,...,T,其中sG为视觉上下文门控的分数,Vc为局部视觉上下文,T为序列{wt}的长度;
步骤2.3.2、使用一个前向LSTM网络在(w1,...wt-1)上预测序列wt,在t=0时刻,前向序列输入为视觉向量同时使用一个反向LSTM网络在(wt+1,...,wT)上预测序列wt,在t=T+1时刻,反向序列的输入为视觉向量
步骤2.3.3、在单词序列中添加了词嵌入[BOS]来表示开始,还添加了词嵌入[EOS]表示结束,将序列表示成([BOS],w1,...,wT,[EOS]);在前向预测中用视觉特征代替[BOS],在后向预测中用视觉特征代替[EOS];将单词和单词的字符嵌入的串联作为LSTM网络的输入。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙大城市学院,未经浙大城市学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011116968.2/1.html,转载请声明来源钻瓜专利网。