[发明专利]获取和评估VQA系统的训练数据的方法、装置、设备和介质有效
申请号: | 201811453504.3 | 申请日: | 2018-11-30 |
公开(公告)号: | CN109711434B | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 黄苹苹;乔敏 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 李辉 |
地址: | 100094 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 获取 评估 vqa 系统 训练 数据 方法 装置 设备 介质 | ||
本公开的实施例涉及用于获取和评估视觉问答(VQA)系统的训练数据的方法、装置、设备和介质。一种用于获取VQA系统的训练数据的方法包括识别VQA系统的训练图像中的对象,并从知识图谱中获得与识别的对象有关的信息。该方法还包括向训练数据提供方提供训练图像和信息,并从训练数据提供方获取用于训练VQA系统的一组训练数据,其中每个训练数据包括由训练数据提供方基于该信息而针对训练图像生成的问题和与问题相对应的回答。本公开的实施例借助于来自知识图谱的信息来降低VQA系统训练数据的生成难度,并且增加训练数据的多样性。此外,本公开的实施例还能够评估训练数据集中的问题对知识图谱中的信息的覆盖率,以作为衡量该训练数据集的质量的指标。
技术领域
本公开的实施例涉及计算机领域,并且更具体地涉及用于获取和评估视觉问答(VQA)系统的训练数据的方法、装置、电子设备和计算机可读存储介质。
背景技术
VQA系统涉及计算机视觉、自然语言处理和知识表示(KR)等多领域,目前已成为人工智能研究的热点。针对给定的图像,VQA系统能够回答围绕该图像的问题。也就是说,VQA系统接收图像和针对该图像的问题作为输入,并且生成针对该问题的自然语言的答案作为输出。当前VQA系统通常基于有监督的机器学习方法来实现,其中利用大量的训练图像和围绕训练图像的问题和答案来作为训练数据,使得所训练的模型能够根据图像内容对问题进行回答。
目前,用于VQA系统的训练数据通常通过人工标注而获得。例如,针对给定训练图像,由标注人员对该图像提出问题并标注相应的答案。这种方式成本较高,并且人工提问的角度通常受到标注人员自身的知识和背景的影响。例如,所提出的问题通常是针对诸如颜色、个数或方向等视觉角度的提问,而缺乏需要常识或知识的推理性问题,因此导致经训练的VQA系统无法回答针对图片的较复杂的推理性问题。此外,传统方案无法实现对训练数据集的质量的量化评估。
发明内容
根据本公开的示例实施例,提供了用于获取和评估VQA系统的训练数据的方案。
在本公开的第一方面中,提供了一种用于获取VQA系统的训练数据的方法。该方法包括识别VQA系统的训练图像中的对象。该方法还包括从知识图谱中获得与识别的对象有关的信息。该方法还包括向训练数据提供方提供训练图像和信息。此外,该方法还包括从训练数据提供方获取用于训练VQA系统的一组训练数据,其中每个训练数据包括由训练数据提供方基于该信息而针对训练图像生成的问题和与问题相对应的回答。
在本公开的第二方面中,提供了一种用于评估VQA系统的训练数据的方法。该方法包括从训练数据提供方获取视觉问答系统的训练数据集,该训练数据集包括由训练数据提供方基于来自知识图谱的信息而针对多个训练图像生成的多组训练数据。该方法还包括确定每组训练数据对于来自知识图谱的信息的信息覆盖率。此外,该方法还包括基于多组训练数据的相应信息覆盖率,来确定训练数据集对于来自知识图谱的信息的信息覆盖率。
在本公开的第三方面中,提供了一种用于获取VQA系统的训练数据的装置。该装置包括:对象识别模块,被配置为识别VQA系统的训练图像中的对象;信息获取模块,被配置为从知识图谱中获得与识别的对象有关的信息;信息提供模块,被配置为向训练数据提供方提供训练图像和信息;以及训练数据获取模块,被配置为从训练数据提供方获取用于训练VQA系统的一组训练数据,其中每个训练数据包括由训练数据提供方基于该信息而针对训练图像生成的问题和与问题相对应的回答。
在本公开的第四方面中,提供了一种用于评估VQA系统的训练数据的装置。该装置包括:训练数据获取模块,被配置为从训练数据提供方获取视觉问答系统的训练数据集,该训练数据集包括由训练数据提供方基于来自知识图谱的信息而针对多个训练图像生成的多组训练数据;第一确定模块,被配置为确定每组训练数据对于来自知识图谱的信息的信息覆盖率;以及第二确定模块,被配置为基于多组训练数据的相应信息覆盖率,来确定训练数据集对于来自知识图谱的信息的信息覆盖率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811453504.3/2.html,转载请声明来源钻瓜专利网。