[发明专利]一种跨媒体间信息分析与检索的方法无效

申请号：	201210180782.2	申请日：	2012-06-04
公开（公告）号：	CN102693321A	公开（公告）日：	2012-09-26
发明（设计）人：	路通;林婉霞	申请（专利权）人：	常州南京大学高新技术研究院
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	江苏圣典律师事务所 32237	代理人：	胡建华
地址：	213164 江苏省常州市武***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种媒体信息分析检索方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种跨媒体间信息分析与检索的方法，其特征在于，包含如下步骤：

（1）对多模态信息进行语义融合处理；

（2）根据概率潜在语义分析模型扩展得到用于处理连续特征向量的多层连续概率潜在语义分析模型；

（3）采用不对称学习方法学习多层连续概率潜在语义分析模型，计算图像的视觉特征向量分布、音频的听觉特征向量分布，以及主题概率分布；

（4）用户提交测试的媒体对象作为检索例子，计算检索例子中图像、音频的模态内和模态间的初始相似度值；

（5）构建传播模型，根据传播模型更新模态内和模态间的相似度值；

（6）根据更新后的相似度值进行二次检索。

2.根据权利要求1所述的一种跨媒体间信息分析与检索的方法，其特征在于，步骤（1）包括如下步骤：

a)采集图像库、音频库：图像和音频的类别数以及每类的个数相同，令类别数为N；将音频分割为时间长度为5~10s片段的音频；把图像库和音频库的整体分为训练集和测试集；

b)提取所有训练集中图像和音频的特征，并生成多媒体文档，包括如下步骤：

提取训练集中所有图像的SIFT特征，令视觉特征向量个数为N_I，用N_I个128维的视觉特征向量的集合表示每个图像d^I，若图像d^I中含该视觉特征向量则该维度值为1，否则为0，即每幅图像都是由一组0、1值所组成的视觉特征向量组成；

提取训练集中所有音频的MFCC特征，令听觉特征向量个数为N_A，用N_A个21维的听觉特征向量的集合表示每个音频d^A，其中若音频d^A中含该听觉特征向量则该维度值为1，否则为0，即每段音频都是由一组0、1值所组成的听觉特征向量组成；

对图像库、音频库进行归类处理：生成N类由图像与音频共同组成的多媒体文档，则将训练集表示为D={D₁,...，D_c，...，D_N}，1<C<N，每个多媒体文档D_c表示第C类图像和音频的集合。

3.根据权利要求2所述的一种跨媒体间信息分析与检索的方法，其特征在于，步骤（2）包括如下步骤：

c)设置主题参数Z_k,k∈1,...,K,20<K<100；

d)构建多层连续概率潜在语义分析模型，学习多模态信息，模型中的观察对为和其中D_c表示多媒体文档，和为多媒体单词，表示视觉特征向量，表示听觉特征向量，i∈1，...N_I,j∈1，...,N_A；

使用主题参数Z_k表示多媒体文档D_c和多媒体单词和之间的关联性；多媒体单词和满足多元高斯分布，即在主题参数z_k条件下的视觉特征向量分布和在主题参数z_k条件下的听觉特征向量分布分别服从Dim^I维的高斯分布和Dim^A维的高斯分布Dim^I和Dim^A分别为视觉特征向量的维数和听觉特征向量的维数，和分别为Dim^I维的均值向量和Dim^I×Dim^I协方差矩阵，和分别为Dim^A维的均值向量和Dim^A×Dim^A协方差矩阵。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于常州南京大学高新技术研究院，未经常州南京大学高新技术研究院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201210180782.2/1.html，转载请声明来源钻瓜专利网。

上一篇：一种自动穿脱鞋套机
下一篇：基于嵌入式Linux智能家居监控系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种跨媒体间信息分析与检索的方法无效

专利文献下载