[发明专利]一种跨媒体间信息分析与检索的方法无效

专利信息
申请号: 201210180782.2 申请日: 2012-06-04
公开(公告)号: CN102693321A 公开(公告)日: 2012-09-26
发明(设计)人: 路通;林婉霞 申请(专利权)人: 常州南京大学高新技术研究院
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 江苏圣典律师事务所 32237 代理人: 胡建华
地址: 213164 江苏省常州市武*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 媒体 信息 分析 检索 方法
【权利要求书】:

1.一种跨媒体间信息分析与检索的方法,其特征在于,包含如下步骤:

(1)对多模态信息进行语义融合处理;

(2)根据概率潜在语义分析模型扩展得到用于处理连续特征向量的多层连续概率潜在语义分析模型;

(3)采用不对称学习方法学习多层连续概率潜在语义分析模型,计算图像的视觉特征向量分布、音频的听觉特征向量分布,以及主题概率分布;

(4)用户提交测试的媒体对象作为检索例子,计算检索例子中图像、音频的模态内和模态间的初始相似度值;

(5)构建传播模型,根据传播模型更新模态内和模态间的相似度值;

(6)根据更新后的相似度值进行二次检索。

2.根据权利要求1所述的一种跨媒体间信息分析与检索的方法,其特征在于,步骤(1)包括如下步骤:

a)采集图像库、音频库:图像和音频的类别数以及每类的个数相同,令类别数为N;将音频分割为时间长度为5~10s片段的音频;把图像库和音频库的整体分为训练集和测试集;

b)提取所有训练集中图像和音频的特征,并生成多媒体文档,包括如下步骤:

提取训练集中所有图像的SIFT特征,令视觉特征向量个数为NI,用NI个128维的视觉特征向量的集合表示每个图像dI,若图像dI中含该视觉特征向量则该维度值为1,否则为0,即每幅图像都是由一组0、1值所组成的视觉特征向量组成;

提取训练集中所有音频的MFCC特征,令听觉特征向量个数为NA,用NA个21维的听觉特征向量的集合表示每个音频dA,其中若音频dA中含该听觉特征向量则该维度值为1,否则为0,即每段音频都是由一组0、1值所组成的听觉特征向量组成;

对图像库、音频库进行归类处理:生成N类由图像与音频共同组成的多媒体文档,则将训练集表示为D={D1,...,Dc,...,DN},1<C<N,每个多媒体文档Dc表示第C类图像和音频的集合。

3.根据权利要求2所述的一种跨媒体间信息分析与检索的方法,其特征在于,步骤(2)包括如下步骤:

c)设置主题参数Zk,k∈1,...,K,20<K<100;

d)构建多层连续概率潜在语义分析模型,学习多模态信息,模型中的观察对为和其中Dc表示多媒体文档,和为多媒体单词,表示视觉特征向量,表示听觉特征向量,i∈1,...NI,j∈1,...,NA

使用主题参数Zk表示多媒体文档Dc和多媒体单词和之间的关联性;多媒体单词和满足多元高斯分布,即在主题参数zk条件下的视觉特征向量分布和在主题参数zk条件下的听觉特征向量分布分别服从DimI维的高斯分布和DimA维的高斯分布DimI和DimA分别为视觉特征向量的维数和听觉特征向量的维数,和分别为DimI维的均值向量和DimI×DimI协方差矩阵,和分别为DimA维的均值向量和DimA×DimA协方差矩阵。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于常州南京大学高新技术研究院,未经常州南京大学高新技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210180782.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top