[发明专利]一种视觉问答方法、系统及服务器有效
| 申请号: | 202110540093.7 | 申请日: | 2021-05-18 |
| 公开(公告)号: | CN113205507B | 公开(公告)日: | 2023-03-10 |
| 发明(设计)人: | 卫星;沈奥;韩知渊;翟琰;李航;葛久松;陆阳;赵冲 | 申请(专利权)人: | 合肥工业大学 |
| 主分类号: | G06T7/00 | 分类号: | G06T7/00;G06T7/11;G06F16/332;G06F16/58;G06F16/583;G06F16/78;G06F16/783;G06F16/215;G06Q50/06;G07C1/20 |
| 代理公司: | 北京东方盛凡知识产权代理有限公司 11562 | 代理人: | 菅士腾 |
| 地址: | 230009 安*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 视觉 问答 方法 系统 服务器 | ||
本发明提供一种视觉问答方法、系统及服务器,包括:获取输电设备的图像数据,图像数据包括视频数据和图片数据;预处理图像数据,得到原始数据集;对原始数据集依次进行视觉问答标注和语义分割标注,得到视觉问答数据集;对视觉问答数据集进行训练,得到视觉问答模型;输入问题文本和图片到视觉问答模型,得到视觉问答结果。本发明对图像数据进行视觉问答标注和语义分割标注,得到视觉问答数据集,从而建立了图像数据的语义分割与文本问答之间的图文链接;根据该视觉问答数据集训练得到的视觉问答模型,以图文链接作为锚点,将输入的图片与文本在语义上对齐,提高了视觉问答模型的性能,获得了更加准确的视觉问答结果。
技术领域
本发明涉及一种视觉问答技术领域,特别是涉及一种视觉问答方法、系统及服务器。
背景技术
目前电力系统的输电设备巡检方式大致可以分为人工巡检和无人机巡检两种。其中无人机巡检由于其成本低、效率高、细节精等特点,得到越来越多的应用。
但是,无人机巡检所获得的大量输电设备航拍图像数据,由于缺少针对输电设备航拍图像的公共数据集,导致计算机不能直接读取和标注图片信息,从而缺乏标注数据对模型进行监督训练,很难高质量完成输电设备外观缺陷检测任务。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种视觉问答方法、系统及服务器,用于解决现有技术中缺少针对输电设备航拍图像的公共数据集,很难高质量完成电输电设备外观缺陷检测任务的问题。
本发明的第一方面提供一种视觉问答方法,包括:获取输电设备的图像数据,所述图像数据包括视频数据和图片数据;
预处理所述图像数据,得到原始数据集;
对所述原始数据集依次进行视觉问答标注和语义分割标注,得到视觉问答数据集;
将所述视觉问答数据集输入视觉问答模型进行训练,得到训练后的视觉问答模型;
输入问题文本和图片到所述训练后的视觉问答模型,得到视觉问答结果。
于本发明的一实施例中,所述预处理所述图像数据,得到原始数据集的步骤包括:
提取所述视频数据的视频关键帧,将所述视频关键帧和所述图片数据合并,得到原始数据集。
于本发明的一实施例中,所述提取所述视频数据的视频关键帧的步骤包括:
遍历所述视频数据的每一镜头,以及每一镜头的每一帧,得到每一帧的RGB平均值,并保存在一个向量中;
统计所述向量的最大值、最小值和均值,将与所述均值最接近的RGB平均值所对应的帧选为关键帧。
于本发明的一实施例中,所述对所述原始数据集进行视觉问答标注和语义分割标注的步骤包括:
对所述原始数据集的每一张图片提出多个问题并标注正确答案;其中,各所述问题分别与各图片的局部或整体相关联;
在各图片上选出与各正确答案相对应的区域,并在区域边沿绘制边界框,建立各图片的文本问答与语义分割之间的图文链接;其中,所述区域根据所述图片数据的对象分为多类,每个类别用不同颜色和索引值表示。
于本发明的一实施例中,所述将所述视觉问答数据集输入视觉问答模型进行训练,得到训练后的视觉问答模型的步骤包括:
步骤一、给定所述视觉问答数据集中的一个问答对,问题嵌入向量wq和答案嵌入向量wa,将两者拼接成为文本特征向量w;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110540093.7/2.html,转载请声明来源钻瓜专利网。





