[发明专利]一种结合属性检测和视觉感知的服装图像字幕生成方法有效
| 申请号: | 202111650461.X | 申请日: | 2021-12-30 |
| 公开(公告)号: | CN114972795B | 公开(公告)日: | 2023-04-07 |
| 发明(设计)人: | 刘骊;张绪辉;付晓东;黄青松;刘利军 | 申请(专利权)人: | 昆明理工大学 |
| 主分类号: | G06V10/46 | 分类号: | G06V10/46;G06V10/44;G06V10/56;G06V10/82;G06N3/044;G06N3/048;G06N3/0464;G06N3/045;G06N3/08 |
| 代理公司: | 昆明隆合知识产权代理事务所(普通合伙) 53220 | 代理人: | 何娇 |
| 地址: | 650500 云南*** | 国省代码: | 云南;53 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 结合 属性 检测 视觉 感知 服装 图像 字幕 生成 方法 | ||
1.一种结合属性检测和视觉感知的民族服装图像字幕生成方法,其特征在于:包括如下步骤:
Step1、输入民族服装图像集,按照不同服装区域对民族服装图像进行特征提取,得到表示民族服装图像显著区域的视觉特征;
Step2、对提取到的视觉特征进行属性检测,并采用多实例学习计算出Top-K显著属性检测概率,获得初步属性检测结果;
Step3、根据民族服装的种类和结构知识,定义民族服装图像集的词向量,并融合词向量、初步属性检测结果、视觉特征构建视觉感知模型,得到关联匹配民族服装图像显著区域的语义上下文和视觉注意力结果;
Step4、通过对语义上下文和注意力结果进行解码优化,评估其视觉和语义的关联性,生成民族服装图像的字幕;
所述Step3的具体过程为:
首先,根据民族服装的种类和结构知识,对民族服装图像集的属性进行语义标注,得到n幅图像对应的文本描述w={w1,w2,...wn},生成词汇表W,其中n表示民族服装图像数量;每幅图像文本描述的单词序列为Y={y1,y2,...yt},采用词嵌入方法得到输入词的词向量Eyt,其中E表示民族服装词汇表W的词嵌入矩阵,yt表示时间步t内输入的单词;
然后,结合视觉、语义注意力机制的双层LSTM构建包含语义注意力模块和视觉注意力模块的视觉感知模型;
将Step1得到的民族服装图像的视觉特征Vj、t-1时间步内第一层LSTM的输出以及词向量Eyt,融合后输入第一层LSTM得到当前时间步t的输出再融合Step2中获得的Top-K初步属性S={S1,S2,...Si}及对应的属性概率P={P1,P2,...Pi}后输入语义注意力模块,其中,i表示检测到的第i个属性,得到表示语义属性的归一化注意力权重其中i表示第i个语义属性的注意力权重,ωa、ωah、ωs分别是权重αi、向量Si待学习的参数,基于检测到的Top-K语义属性Si和归一化注意力权重αi得到输入图像的语义上下文
最后,融合语义上下文第一层LSTM的输出t-1时间步内第二层LSTM的输出输入第二层LSTM得到输出将Step2中检测到的输入图像Top-K属性S={S1,S2,...Si}融合后输入视觉注意力模块;再结合语义属性Si以及输入图像的m个显著区域的视觉特征,通过关联匹配语义属性和视觉区域,得到表示显著区域视觉特征的归一化注意力权重其中j表示第j个显著区域,ωb、ωbh、ωs、ωV分别是权重βj、向量Si、Vj待学习的参数;基于第j个显著区域的归一化注意力权重βj与显著视觉特征Vj,得到输入图像m个显著区域的视觉注意力结果
所述Step4的具体过程为:
首先,融合语义上下文和视觉注意力结果,引入信息向量其中分别为M中向量的待学习参数,b1为偏差;
然后,引入注意力门通过Sigmoid激活函数输出0-1之间的概率值对视觉和语义信息的关联性进行评估;对信息向量及注意力门采用点积运算得到最终的注意力结果其中为分别为G中向量的待训练参数,b2为偏差;
之后,在时间步t通过计算民族服装词汇表W上的条件概率生成字幕,定义所有可能输出词的概率为其中是向量AF待学习的参数,b3是偏差,通过归一化后得到结果yt+1;
最后,重复执行上述过程,直至生成当前民族服装图像对应的完整文本描述w'={w’1,w'2,...w'n}。
2.根据权利要求1所述的结合属性检测和视觉感知的民族服装图像字幕生成方法,其特征在于:所述Step1的具体过程为:根据民族服装的不同区域,采用Faster R-CNN对输入的民族服装图像集I={I1,I2,...In}进行显著区域检测,n表示民族服装图像集中图像数量;再采用VGG16进行特征提取,得到表示民族服装图像显著区域的视觉特征Vj={V1,V2,...Vm},其中j表示第j个显著区域,m表示该幅图像中显著区域的数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111650461.X/1.html,转载请声明来源钻瓜专利网。





