[发明专利]一种基于视觉嵌入和条件归一化的图像描述方法有效

申请号：	202110292545.4	申请日：	2021-03-18
公开（公告）号：	CN113139378B	公开（公告）日：	2022-02-18
发明（设计）人：	张旻;李鹏飞;林培捷;汤景凡;姜明	申请（专利权）人：	杭州电子科技大学
主分类号：	G06F40/258	分类号：	G06F40/258;G06V10/40;G06N3/04;G06N3/08
代理公司：	杭州君度专利代理事务所(特殊普通合伙) 33240	代理人：	朱月芬
地址：	310018 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于视觉嵌入和条件归一化的图像描述方法。本发明提出了一种基于transformer模型的网络，被称为V‑CLTM。在transformer模型的输入端，使用关键词嵌入模块(KEM)提取图像中的目标类别作为关键词，结合文本序列作为输入序列；使用视觉嵌入模块(VEM)用来提取图像特征，并将特征编码成transformer的归一化层能接受维度作为条件输入；同时，本发明提出的条件归一化的LN层是一种通过视觉嵌入来调节模型进行特征选择的有效机制，将条件归一化LN应用于transformer上。结果表明，这种方法具有更好的鲁棒性和自适应能力。
搜索关键词：	一种基于视觉嵌入条件归一化图像描述方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

暂无信息

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学，未经杭州电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/202110292545.4/，转载请声明来源钻瓜专利网。

专利分类

免登录下载普通用户下载升级VIP会员，免费下载

专利文献下载