[发明专利]一种结合属性检测和视觉感知的服装图像字幕生成方法有效
| 申请号: | 202111650461.X | 申请日: | 2021-12-30 |
| 公开(公告)号: | CN114972795B | 公开(公告)日: | 2023-04-07 |
| 发明(设计)人: | 刘骊;张绪辉;付晓东;黄青松;刘利军 | 申请(专利权)人: | 昆明理工大学 |
| 主分类号: | G06V10/46 | 分类号: | G06V10/46;G06V10/44;G06V10/56;G06V10/82;G06N3/044;G06N3/048;G06N3/0464;G06N3/045;G06N3/08 |
| 代理公司: | 昆明隆合知识产权代理事务所(普通合伙) 53220 | 代理人: | 何娇 |
| 地址: | 650500 云南*** | 国省代码: | 云南;53 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 结合 属性 检测 视觉 感知 服装 图像 字幕 生成 方法 | ||
本发明涉及结合属性检测和视觉感知的民族服装图像字幕生成方法。先输入民族服装图像集,按不同服装区域对民族服装图像进行特征提取,得到表示民族服装图像显著区域的视觉特征;对提取到的视觉特征进行属性检测,并采用多实例学习计算出Top‑K显著属性检测概率,获得初步属性检测结果;根据民族服装的种类和结构知识,定义民族服装图像集的词向量,并融合词向量、初步属性检测结果、视觉特征构建视觉感知模型,得到关联匹配民族服装图像显著区域的语义上下文和视觉注意力结果;通过对语义上下文和注意力结果进行解码优化,评估其视觉和语义的关联性,生成民族服装图像的字幕。本发明能用于民族服装图像字幕生成,具有较高的识别精确度和效率。
技术领域
本发明涉及一种结合属性检测和视觉感知的民族服装图像字幕生成方法,属于计算机视觉、图像应用领域。
背景技术
图像字幕(Image Caption)是场景理解的重要组成部分,最初针对普通场景下的对象进行识别理解,近几年扩展到不同应用场景如数字化服装、医学报告生成等。通常公知的方法基于编码器-解码器的结构实现字幕生成,并在此结构中的某一端进行改进,如针对编码端进行改进的相关网络NIC、SCA-CNN、sGPN、CAAG、ACG、 DaE等,以及针对解码端进行改进的如SCN-LSTM、LSTM-C、Skel-LSTM、LSTM-A、 R-LSTM、SAP-LSTM等。然而,对于款式结构复杂、语义及颜色丰富的民族服装而言,公知方法存在很大的局限性:仅提取底层特征而忽略属性信息与视觉特征,无法实现民族服装图像字幕准确生成。本发明通过提取民族服装的视觉、文本特征,以及采用属性检测和建立视觉感知模型来融合注意力机制和语义上下文,能有效解决民族服装图像的有效识别和字幕生成等问题,提高输出文本描述的准确率。
公知的图像字幕生成方法大多针对普通场景图像下的字幕生成。例如,YQ Huang(IEEE Transactions on Image Processing29,2020,4013~4026)通过对属性嵌入和对象特征之间的相似性建模预测属性概率分布,并结合了后续属性预测模块提高生成属性的准确率。但是该方法对于图像特征及语义属性的建模过于单一,无法妥善处理语义信息更为复杂、生成结果精度要求更高的图像字幕生成任务。S Wang(ICASSP2021,2245~2249)通过结合低级视觉信息和高级语义属性,实现了细粒度的图像字幕生成。该方法采用的三层LSTM网络,使得模型参数过于复杂,收敛速度较慢,并且在民族服装图像数据集上鲁棒性较差。XR Li(Pattern Recognition Letters141,2021,68~74)通过结合属性检测和门控注意力机制首次完成了针对服装图像字幕生成的工作,同时还对注意力结果进行了评估。但是对于属性检测结果和视觉特征的利用并不充分,没有通过注意力机制对二者关联性紧密结合,导致图像字幕生成的结果并不理想。公知的发明专利CN 107608943 B同样采取了视觉、语义双重注意力机制来生成自动平衡策略模型,并在结合了多层感知机模型MLP的基础上将得到的所有生成词进行串联组合产生更为精确的字幕。但是该公知发明方法没有利用输入图像的属性检测结果,无法结合图像中对象的属性来实现字幕生成工作。虽然这些方法都取得了不错的效果,但是针对款式结构复杂、语义及颜色丰富的民族服装而言仍有较大局限性。本发明基于民族服装的区域结构及语义属性,结合了属性检测和视觉感知技术,通过构建的视觉感知模型能有效关注民族服装图像的显著区域,实现针对民族服装特点的图像字幕生成。
发明内容
本发明提供了一种结合属性检测和视觉感知的民族服装图像字幕生成方法,针对民族服装图像的特殊性,提取民族服装图像的视觉显著区域及语义属性,从而实现对民族服装图像关键信息(风格、款式等)的字幕生成。
本发明的技术方案是:一种结合属性检测和视觉感知的民族服装图像字幕生成方法,所述方法的具体步骤如下:
Step1、输入民族服装图像集,按照不同服装区域对民族服装图像进行特征提取,得到表示民族服装图像显著区域的视觉特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111650461.X/2.html,转载请声明来源钻瓜专利网。





