[发明专利]基于语义原型树的端到端图像字幕生成方法在审

申请号：	202210683376.1	申请日：	2022-06-16
公开（公告）号：	CN115062174A	公开（公告）日：	2022-09-16
发明（设计）人：	高联丽;朱晋宽;顾嘉扬;曾鹏鹏;宋井宽	申请（专利权）人：	电子科技大学
主分类号：	G06F16/55	分类号：	G06F16/55;G06F16/58;G06K9/62
代理公司：	成都弘毅天承知识产权代理有限公司 51230	代理人：	朱丹
地址：	611731 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了基于语义原型树的端到端图像字幕生成方法，涉及跨模态信息理解技术领域，解决了传统方法中特征所处领域与下游任务领域有所割裂的问题，以及得到的语义概念词与图像内容无关导致生成的描述不准确的问题，包在设计的端到端方法中，构建一个可训练的视觉编码器，基于当前给定的原始图片信息，能够提取出图像的栅格信息，构建提取器TSP，该模块的输入是词库里的所有词，模块利用分词算法和分层聚类算法，输出树结构的原型语义词基于交叉注意力机制，渐进地融合语义信息与栅格特征，进行跨模态与跨空间域的对象表征学习，得到语义强化的视觉表征向量将改进的栅格特征送入其中，得到模型预测的描述结果，并计算预测损失。
搜索关键词：	基于语义原型端到端图像字幕生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

暂无信息

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于电子科技大学，未经电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/202210683376.1/，转载请声明来源钻瓜专利网。

上一篇：显示屏、显示屏制作方法及电子设备
下一篇：碳纤维材料、其制备方法和锂离子电池

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于语义原型树的端到端图像字幕生成方法在审

专利文献下载