[发明专利]文本视觉问答方法和装置在审

专利信息
申请号: 202111186856.9 申请日: 2021-10-12
公开(公告)号: CN113849623A 公开(公告)日: 2021-12-28
发明(设计)人: 曾港艳;张远;周宇;杨晓萌;王伟平 申请(专利权)人: 中国传媒大学;中国科学院信息工程研究所
主分类号: G06F16/332 分类号: G06F16/332;G06F16/33;G06F16/35;G06F40/126;G06F40/30;G06N3/04;G06N3/08
代理公司: 北京铭硕知识产权代理有限公司 11286 代理人: 张军;曾世骁
地址: 100024 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 视觉 问答 方法 装置
【说明书】:

提供一种文本视觉问答方法和装置,该方法包括:通过文本视觉问答模型中的文字表征获取模块从图像获得视觉增强的文字表征,文字表征获取模块包括OCR模块和TVS模块;通过文本视觉问答模型中的物体表征获取模块从图像获得语义导向的物体表征;通过文本视觉问答模型中的预训练的语言模型从与图像对应的问题语句获得问题表征;通过文本视觉问答模型中的第一多模态交互网络模块从视觉增强的文字表征、语义导向的物体表征、问题表征以及先前解码向量获得与视觉增强的文字表征对应的文字表征增强特征和与先前解码向量对应的当前预测解码向量;通过文本视觉问答模型中的答案预测模块从文字表征增强特征和当前预测解码向量获得与问题语句对应的预测答案。

技术领域

本申请总体说来涉及信息处理技术领域,更具体地讲,涉及文本视觉问答模型的训练方法和装置以及文本视觉问答(TextVQA)方法和装置。

背景技术

目前,由于通用视觉问答(VQA)方法无法处理图像中文字信息的缺陷,因此研发人员提出了文本视觉问答(TextVQA)技术。然而,TextVQA为了回答与图像中文字相关的问题,需要同时考虑视觉场景和文字等多个模态的信息及其关系,具有很大挑战。为此,目前主流方法是引入一个外部的光学字符识别(OCR)模块作为单独的前处理模块,即,OCR模块从图像中检测、识别并获取文字信息后,再将获取的文字信息与问题、视觉等其他模态信息一同传送到VQA模型中,从而提升了TextVQA性能。

但是,现有技术将OCR模块作为一个单独的前处理模块,并没有让其参与到整个模型的优化,这使得TextVQA性能很大程度上受到OCR精度的影响。具体表现为以下两种误差累积传播现象:(1)OCR错误使得对文字的直接语义编码错误,导致多模态信息的交互推理过程出现偏差,从而无法定位出准确的答案;(2)即使是在推理和定位答案正确的情况下,OCR错误仍然会导致最终从OCR结果中“复制”的答案是错误的。

另外,由于视觉模态信息主要由图像中检测到的物体的视觉特征来表示,因此视觉模态信息与文字、问题模态交互时存在语义间隔,使得多模态信息无法有效融合。

发明内容

为了至少解决现有技术中存在的上述问题,本发明提供了一种文本视觉问答模型的训练方法和装置以及文本视觉问答方法和装置。

本发明的第一方面在于提供一种文本视觉问答模型的训练方法,其中,所述文本视觉问答模型包括预训练的语言模型、文字表征获取模块、物体表征获取模块、第一多模态交互网络模块和答案预测模块,其中,所述训练方法包括:由文字表征获取模块对第一训练数据集进行处理来获得与第一训练数据集中的图像文字区域相对应的预测的语义特征以及预测的文字识别结果,根据所述预测的语义特征以及与所述图像文字区域对应的真实语义特征计算第一损失函数,根据所述预测的文字识别结果以及与所述图像文字区域对应的真实的文字识别结果计算第二损失函数,并利用第一损失函数和第二损失函数调整文字表征获取模块的模型参数来对文字表征获取模块进行训练;由物体表征获取模块对第二训练数据集进行处理来获得第二训练数据集中的物体的预测的物体类别嵌入向量,根据所述预测的物体类别嵌入向量以及所述物体的真实物体类别向量计算第三损失函数,并根据第三损失函数调整物体表征获取模块的模型参数来对物体表征获取模块进行训练;由训练后的文字表征获取模块针对第三训练数据集获取视觉增强的文字表征,由训练后的物体表征获取模块针对第三训练数据集获取语义导向的物体表征,由预训练的语言模型针对问题语句获取问题表征,并根据所述视觉增强的文字表征、所述语义导向的物体表征、所述问题表征、以及先前解码向量对第一多模态交互网络模块和答案预测模块进行训练。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国传媒大学;中国科学院信息工程研究所,未经中国传媒大学;中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111186856.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top