[发明专利]基于多通道自编码器的多模态词汇表示方法与系统有效

申请号：	201810178559.1	申请日：	2018-03-05
公开（公告）号：	CN108536735B	公开（公告）日：	2020-12-15
发明（设计）人：	王少楠;张家俊;宗成庆	申请（专利权）人：	中国科学院自动化研究所
主分类号：	G06F16/9032	分类号：	G06F16/9032;G06F40/30;G06N3/04;G06N3/08
代理公司：	北京市恒有知识产权代理事务所(普通合伙) 11576	代理人：	郭文浩
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及自然语言处理领域，具体涉及一种基于多通道自编码器的多模态词汇表示方法与系统，目的在于提高表示结果的准确性。本发明的词汇表示方法，先通过向量数据库查询待表示词汇的文本模态向量、视觉模态向量、音频模态向量；对于没有视觉模态和音频模态的词汇，利用训练好的映射模型去预测缺失的视觉向量以及听觉向量；再计算上述三种向量与对应模态权重的点积；最后将上述加权后的向量作为多通道自编码器模型的输入，对三种模态的信息进行融合，得到多模态的词汇表示向量。本发明利用不同模态间的相关性，融合不同模态的信息，并引入模态权重，有效提高了词汇表示的准确度。为了对不同模态进行更好的融合，还加入了联想词汇预测模块。
搜索关键词：	基于通道编码器多模态词汇表示方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于多通道自编码器的多模态词汇表示方法，其特征在于，包括以下步骤：步骤A10，基于预先构建的向量数据库，查询待表示词汇的三种表示向量：文本模态向量、视觉模态向量、音频模态向量；步骤A20，若查询结果中缺失视觉模态向量和/或音频模态向量，则基于训练好的向量映射模型，根据所述待表示词汇的文本模态向量，生成所述待表示词汇的视觉模态向量和/或音频模态向量；步骤A30，基于训练好的多通道自编码器，输入所述三种表示向量，生成所述待表示词汇的多模态词汇表示向量。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所，未经中国科学院自动化研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810178559.1/，转载请声明来源钻瓜专利网。

上一篇：人工智能数字代理
下一篇：一种小卫星综合测试系统实时数据库搭建方法及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于多通道自编码器的多模态词汇表示方法与系统有效

专利文献下载