[发明专利]一种基于文本-图片关系预训练的多模态推文命名实体识别的方法在审

申请号：	202011116968.2	申请日：	2020-10-19
公开（公告）号：	CN112257445A	公开（公告）日：	2021-01-22
发明（设计）人：	翁芳胜;孙霖;王跻权;孙宇轩	申请（专利权）人：	浙大城市学院
主分类号：	G06F40/295	分类号：	G06F40/295;G06F40/284;G06N3/04;G06N3/08
代理公司：	杭州九洲专利事务所有限公司 33101	代理人：	张羽振
地址：	310015 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于文本图片关系训练多模态推文命名实体识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于文本-图片关系预训练的多模态推文命名实体识别的方法，其特征在于，包括以下步骤：

步骤1、大规模数据收集：将推特100k数据集用作未标记多模式语料库；将彭博文本-图像关系数据集中的图文关系合并成文本-图像相关关系和文本-图像无关关系，并按照固定比例将彭博文本-图像关系数据集划分为训练集和测试集；并选用复旦大学的多模态推文数据集和Snap Research的MNER Twitter数据集作为数据基础；

步骤2、建立关系推断和视觉注意的预训练多模态网络模型，关系推断和视觉注意的预训练多模态网络模型包括：文本-图像关系门控网络、注意力导向的视觉上下文网络和视觉语言上下文网络；

步骤3、预训练任务；

步骤4、将预训练多模态网络模型用于多模态NER任务：使用biLSTM-CRF模型作为命名实体识别的基准模型来测试预训练多模态模型；将词嵌入e_k输入biLSTM网络，条件随机场使用每个词嵌入e_k的biLSTM隐藏向量h_t来标记带有实体标签的序列；使用预训练多模态网络模型时，输入文本图像对后，将视觉语言上下文网络中每个嵌入的前向LSTM网络和后向LSTM网络的隐藏输出连接成为视觉语言上下文嵌入进行多模态NER任务时，将词嵌入e_k替换成

2.根据权利要求1所述基于文本-图片关系预训练的多模态推文命名实体识别的方法，其特征在于：步骤2具体包括如下步骤：

步骤2.1、建立文本-图像关系门控网络：用基于语言和视觉特征融合的全连接层来完成文本-图像关系分类；从biLSTM网络中学习推文的语言特征；

步骤2.1.1、将单词和单词的字符嵌入的串联联合输入biLSTM网络，然后把bilSTM网络的前向输出和后向输出串联起来作为编码后的文本向量其中d_t为文本向量f_t的维度大小,1×d_t为文本向量f_t所属的向量空间大小；

步骤2.1.2、使用ResNet从图像中提取视觉特征f_v；根据ResNet中最后一个卷积层的输出尺寸，在固定区域上使用平均池，并将整个图像表示为固定维数的向量f_v；

步骤2.1.3、最后将编码后的文本向量和图像向量做点乘f_t⊙f_v，然后输入到FC层和softmax层，获得二分类和视觉上下文门控的分数s^G；

步骤2.2、建立注意力导向的视觉上下文网络；

步骤2.2.1、设为给定图像的区域视觉特征，其中i＝1,...,m,j＝1,...n,r为区域特征,d_v为维度大小,m×n×d_v为ResNet中最后一个卷积层的输出尺寸，m×n为图像中的区域个数；

步骤2.2.2、使用缩放点乘注意力来捕捉与语言语境相关的局部视觉特征，缩放点乘注意力的定义为：

上式中，矩阵Q、矩阵K和矩阵V分别代表查询、键和值；d_k是键的维数；

步骤2.2.3、使用语言查询向量Q^s＝f_t作为查询，区域视觉特征V^r作为键和值；通过线性投影将语言查询向量Q^s和区域视觉特征V^r转化为同一维度：和

步骤2.2.4、计算语言注意力其中Q_s为语言查询向量，为转化维度后的语言查询向量Q^s，为转化维度后的区域视觉特征V^r；并将单路注意扩展到多路注意力；将局部视觉上下文V_c的输出定义为：

上式(2)至式(3)中，Q_s为语言查询向量，为转化维度后的语言查询向量Q^s，为转化维度后的区域视觉特征V^r，V_c为局部视觉上下文，head_i为局部视觉上下文的输出，i＝1,...,h，h为局部视觉上下文输出的总个数；

步骤2.3、建立视觉语言上下文网络，使用biLSTM网络在推特100k数据集上学习视觉语言上下文嵌入；

步骤2.3.1、首先给定一个视觉向量和一个长度为T的序列{w_t}，t＝1,...,T，其中s^G为视觉上下文门控的分数，V_c为局部视觉上下文，T为序列{w_t}的长度；

步骤2.3.2、使用一个前向LSTM网络在(w₁,...w_t-1)上预测序列w_t，在t＝0时刻，前向序列输入为视觉向量同时使用一个反向LSTM网络在(w_t+1,...,w_T)上预测序列w_t，在t＝T+1时刻，反向序列的输入为视觉向量

步骤2.3.3、在单词序列中添加了词嵌入[BOS]来表示开始，还添加了词嵌入[EOS]表示结束，将序列表示成([BOS],w₁,...,w_T,[EOS])；在前向预测中用视觉特征代替[BOS]，在后向预测中用视觉特征代替[EOS]；将单词和单词的字符嵌入的串联作为LSTM网络的输入。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙大城市学院，未经浙大城市学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011116968.2/1.html，转载请声明来源钻瓜专利网。

上一篇：高层建筑多轿厢循环运行电梯及控制方法
下一篇：一种基于电子商务用于产品宣传展示的拖拉式可移动机构

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于文本-图片关系预训练的多模态推文命名实体识别的方法在审

专利文献下载