[发明专利]一种基于文本-图片关系预训练的多模态推文命名实体识别的方法在审

专利信息
申请号: 202011116968.2 申请日: 2020-10-19
公开(公告)号: CN112257445A 公开(公告)日: 2021-01-22
发明(设计)人: 翁芳胜;孙霖;王跻权;孙宇轩 申请(专利权)人: 浙大城市学院
主分类号: G06F40/295 分类号: G06F40/295;G06F40/284;G06N3/04;G06N3/08
代理公司: 杭州九洲专利事务所有限公司 33101 代理人: 张羽振
地址: 310015 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 文本 图片 关系 训练 多模态推文 命名 实体 识别 方法
【权利要求书】:

1.一种基于文本-图片关系预训练的多模态推文命名实体识别的方法,其特征在于,包括以下步骤:

步骤1、大规模数据收集:将推特100k数据集用作未标记多模式语料库;将彭博文本-图像关系数据集中的图文关系合并成文本-图像相关关系和文本-图像无关关系,并按照固定比例将彭博文本-图像关系数据集划分为训练集和测试集;并选用复旦大学的多模态推文数据集和Snap Research的MNER Twitter数据集作为数据基础;

步骤2、建立关系推断和视觉注意的预训练多模态网络模型,关系推断和视觉注意的预训练多模态网络模型包括:文本-图像关系门控网络、注意力导向的视觉上下文网络和视觉语言上下文网络;

步骤3、预训练任务;

步骤4、将预训练多模态网络模型用于多模态NER任务:使用biLSTM-CRF模型作为命名实体识别的基准模型来测试预训练多模态模型;将词嵌入ek输入biLSTM网络,条件随机场使用每个词嵌入ek的biLSTM隐藏向量ht来标记带有实体标签的序列;使用预训练多模态网络模型时,输入文本图像对后,将视觉语言上下文网络中每个嵌入的前向LSTM网络和后向LSTM网络的隐藏输出连接成为视觉语言上下文嵌入进行多模态NER任务时,将词嵌入ek替换成

2.根据权利要求1所述基于文本-图片关系预训练的多模态推文命名实体识别的方法,其特征在于:步骤2具体包括如下步骤:

步骤2.1、建立文本-图像关系门控网络:用基于语言和视觉特征融合的全连接层来完成文本-图像关系分类;从biLSTM网络中学习推文的语言特征;

步骤2.1.1、将单词和单词的字符嵌入的串联联合输入biLSTM网络,然后把bilSTM网络的前向输出和后向输出串联起来作为编码后的文本向量其中dt为文本向量ft的维度大小,1×dt为文本向量ft所属的向量空间大小;

步骤2.1.2、使用ResNet从图像中提取视觉特征fv;根据ResNet中最后一个卷积层的输出尺寸,在固定区域上使用平均池,并将整个图像表示为固定维数的向量fv

步骤2.1.3、最后将编码后的文本向量和图像向量做点乘ft⊙fv,然后输入到FC层和softmax层,获得二分类和视觉上下文门控的分数sG

步骤2.2、建立注意力导向的视觉上下文网络;

步骤2.2.1、设为给定图像的区域视觉特征,其中i=1,...,m,j=1,...n,r为区域特征,dv为维度大小,m×n×dv为ResNet中最后一个卷积层的输出尺寸,m×n为图像中的区域个数;

步骤2.2.2、使用缩放点乘注意力来捕捉与语言语境相关的局部视觉特征,缩放点乘注意力的定义为:

上式中,矩阵Q、矩阵K和矩阵V分别代表查询、键和值;dk是键的维数;

步骤2.2.3、使用语言查询向量Qs=ft作为查询,区域视觉特征Vr作为键和值;通过线性投影将语言查询向量Qs和区域视觉特征Vr转化为同一维度:和

步骤2.2.4、计算语言注意力其中Qs为语言查询向量,为转化维度后的语言查询向量Qs,为转化维度后的区域视觉特征Vr;并将单路注意扩展到多路注意力;将局部视觉上下文Vc的输出定义为:

上式(2)至式(3)中,Qs为语言查询向量,为转化维度后的语言查询向量Qs,为转化维度后的区域视觉特征Vr,Vc为局部视觉上下文,headi为局部视觉上下文的输出,i=1,...,h,h为局部视觉上下文输出的总个数;

步骤2.3、建立视觉语言上下文网络,使用biLSTM网络在推特100k数据集上学习视觉语言上下文嵌入;

步骤2.3.1、首先给定一个视觉向量和一个长度为T的序列{wt},t=1,...,T,其中sG为视觉上下文门控的分数,Vc为局部视觉上下文,T为序列{wt}的长度;

步骤2.3.2、使用一个前向LSTM网络在(w1,...wt-1)上预测序列wt,在t=0时刻,前向序列输入为视觉向量同时使用一个反向LSTM网络在(wt+1,...,wT)上预测序列wt,在t=T+1时刻,反向序列的输入为视觉向量

步骤2.3.3、在单词序列中添加了词嵌入[BOS]来表示开始,还添加了词嵌入[EOS]表示结束,将序列表示成([BOS],w1,...,wT,[EOS]);在前向预测中用视觉特征代替[BOS],在后向预测中用视觉特征代替[EOS];将单词和单词的字符嵌入的串联作为LSTM网络的输入。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙大城市学院,未经浙大城市学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011116968.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top