[发明专利]基于语义原型树的端到端图像字幕生成方法在审
申请号: | 202210683376.1 | 申请日: | 2022-06-16 |
公开(公告)号: | CN115062174A | 公开(公告)日: | 2022-09-16 |
发明(设计)人: | 高联丽;朱晋宽;顾嘉扬;曾鹏鹏;宋井宽 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F16/55 | 分类号: | G06F16/55;G06F16/58;G06K9/62 |
代理公司: | 成都弘毅天承知识产权代理有限公司 51230 | 代理人: | 朱丹 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了基于语义原型树的端到端图像字幕生成方法,涉及跨模态信息理解技术领域,解决了传统方法中特征所处领域与下游任务领域有所割裂的问题,以及得到的语义概念词与图像内容无关导致生成的描述不准确的问题,包在设计的端到端方法中,构建一个可训练的视觉编码器,基于当前给定的原始图片信息,能够提取出图像的栅格信息,构建提取器TSP,该模块的输入是词库里的所有词,模块利用分词算法和分层聚类算法,输出树结构的原型语义词基于交叉注意力机制,渐进地融合语义信息与栅格特征,进行跨模态与跨空间域的对象表征学习,得到语义强化的视觉表征向量将改进的栅格特征送入其中,得到模型预测的描述结果,并计算预测损失。 | ||
搜索关键词: | 基于 语义 原型 端到端 图像 字幕 生成 方法 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202210683376.1/,转载请声明来源钻瓜专利网。