[发明专利]一种视听觉跨模态物体材质检索方法及系统有效

申请号：	201810296069.1	申请日：	2018-03-30
公开（公告）号：	CN108520758B	公开（公告）日：	2021-05-07
发明（设计）人：	刘华平;刘卓锟;王博文;孙富春	申请（专利权）人：	清华大学
主分类号：	G10L25/54	分类号：	G10L25/54;G10L25/24;G10L25/21;G06F16/583
代理公司：	北京清亦华知识产权代理事务所(普通合伙) 11201	代理人：	廖元秋
地址：	100084***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提出一种视听觉跨模态物体材质检索方法及系统，属于电子信息、人工智能、模式识别和机器学习领域。该系统包括：照相机、麦克风和计算机；该方法首先对材质分类建立图片检索库，对检索库中每个物体敲击采集声音信号，建立训练样本数据集；提取训练样本特征，得到训练样本数据集的声音特征矩阵；对图片检索库提取图片特征，得到检索库图片特征矩阵，分别对两个矩阵降维得到对应投影向量矩阵；检索时，分别获取测试样本降维后的声音特征矩阵和检索结果展示集降维后的图像特征矩阵，计算两个矩阵欧氏距离得到与测试物体最相似的图片即为物体材质检索结果。本发明可弥补仅依靠文字图片识别物体材质的不足之处，得到更准确的物体材质识别结果。
搜索关键词：	一种视听觉跨模态物体材质检索方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种视听觉跨模态物体材质检索方法，其特征在于，该方法包括以下步骤：1)材质分类并建立图片检索库；具体步骤如下：1‑1)将物体材质划分A种大类材质，并在每种大类材质中根据不同小类材质选取B种具体物体，共得到A×B个不同具体物体；1‑2)使用照相机拍摄步骤1‑1)中每个具体物体的图片，拍摄角度为被拍摄具体物体正上方，重复拍摄10张图片，每张图片中被拍摄物体占据图片面积四分之三以上，将每张图片像素调整为128×256，将调整后的所有图片组成图片检索库C；2)构建训练样本数据集；具体步骤如下：2‑1)任意选取步骤1)确定的一种小类材质所属的具体物体，使用金属棒敲击该物体表面一次，施加力的范围为2‑10N，并用麦克风对敲击物体表面产生的声音信号进行采集，采集频率为44100Hz，将采集的声音信号作为该小类材质的一个训练样本以wav格式保存在计算机中；每个训练样本采集时长为2s，共88200个数据点；2‑2)重复步骤2‑1)，对步骤2‑1)选定的具体物体重复D次声音信号采集操作，10≤D≤20，保存每次操作采集得到的声音信号，得到该物体对应小类材质的D个训练样本；2‑3)重复步骤2‑1)至步骤2‑2)，对步骤1)确定的所有小类材质对应的具体物体采集相应的声音信号，得到每种小类材质分别对应的D个训练样本，共计A×B×D个训练样本，组成所有小类材质的训练样本数据集；3)对训练样本数据集进行预处理；具体步骤如下：3‑1)利用普减法对每个训练样本进行去噪；3‑2)对步骤3‑1)完成去噪的每个训练样本进行预加重，通过高通滤波器，补偿该训练样本的高频分量损失；表达式如下：H(z)＝1‑μz‑1式中，H(z)代表高通滤波器函数，预加重系数μ为0.97，z代表z变换；3‑3)对步骤3‑2)完成预加重的每个训练样本进行分帧处理，设置帧长为20ms到30ms，每帧包含L个数据点，帧移为1/2L或1/3L，每个训练样本划分为N帧，然后再将每一帧乘以汉明窗得到该帧对应的声音信号记为yi(n)，其中，i代表训练样本分帧后第i帧，1≤i≤N，n为该帧内第n个数据点，1≤n≤L；4)对预处理完毕的训练样本数据集进行特征提取，得到训练样本数据集的声音特征矩阵；具体步骤如下：4‑1)对每个训练样本提取时域特征；对于每个训练样本，时域特征提取采用提取每帧的短时能量E(i)，短时平均幅度M(i)和短时平均过零率Z(i)三个特征，得到该训练样本对应的N×1的短时能量矩阵E，N×1短时平均幅度矩阵M和N×1短时平均过零率矩阵Z；表达式分别如下：式中，L为每帧的数据点个数，sgn[·]是符号函数，表达式如下：4‑2)采用梅尔频率倒谱系数MFCC对每个训练样本提取频域特征；具体步骤如下：4‑2‑1)对步骤3)得到的每个训练样本每一帧yi(n)进行快速傅里叶变换，将训练样本从时域数据转变为频域数据，表达式如下：X(i,k)＝FFT[yi(n)]式中，X(i,k)为快速傅里叶变换得到每帧的频谱，k表示频域中第k条谱线，FFT为快速傅里叶变换；4‑2‑2)把每帧能量[X(i,k)]2通过梅尔滤波器，与梅尔滤波器的频域响应Hm(k)相乘并相加，表达式如下：式中，S(i,m)为通过梅尔滤波器的帧能量，M为梅尔三角滤波器组中滤波器的个数，Hm(k)表达式如下：式中，f_(m)代表第m个Mel滤波器的中心频率，0≤m≤M‑1；4‑2‑3)对每个训练样本每一帧进行离散余弦变换求倒谱,得到每个训练样本的梅尔倒谱系数矩阵；表达式如下：式中，mfcc(i，η)表示第i帧声音信号的第η阶MFCC系数，Q为MFCC系数的总阶数，得到该训练样本对应的N×Q的梅尔倒谱系数矩阵mfcc；4‑2‑4)计算每个训练样本的一阶差分系数矩阵；对每个训练样本的每一帧声音信号求取Q维一阶差分系数,表达式如下：式中，θ表示一阶导数的时间差，得到该训练样本N×Q的特征矩阵一阶差分系数矩阵mfcc′；4‑3)特征融合，得到每个训练样本的声音特征系数矩阵；；将每个训练样本的N×1的短时能量矩阵E，N×1的短时平均幅度矩阵M，N×1的短时平均过零率矩阵Z，N×Q的梅尔倒谱系数矩阵mfcc和N×Q的一阶差分系数矩阵mfcc′按照顺序组合成为该训练样本新的声音特征矩阵，则新的声音特征矩阵的维度为N×(3+2Q)，组合后的新声音特征矩阵的每一列代表该训练样本的一个特征系数，对每一列特征系数求取平均值，最后得到该训练样本的1×(3+2Q)维声音特征系数矩阵；4‑4)将所有训练样本的声音特征系数矩阵合并，得到训练样本数据集的声音特征矩阵X；5)对图片检索库的每张图片进行图片特征提取，得到检索库图片特征矩阵；具体步骤如下：5‑1)从图片检索库C中任意选取一张图片，对该图片按照每16×16个像素作为一个细胞单元进行划分；5‑2)计算步骤5‑1)选取的图片每个细胞单元中的每个像素点的梯度幅值和梯度方向,梯度算子使用简单算子[‑1,0,1],[1,0,‑1]T，对图片进行卷积运算；分别计算像素点沿x轴方向上的梯度值Gx和沿y轴方向上的梯度值Gy，表达式如下：Gx＝H(x+1,y)‑H(x‑1,y)Gy＝H(x,y+1)‑H(x,y‑1)其中，H(x,y)表示图片在像素点(x，y)处的像素值；像素点(x，y)处的梯度和梯度方向如下所示：其中，δ(x,y)为像素点(x，y)处的梯度，γ(x,y)为像素点(x，y)处的梯度方向；5‑3)将细胞单元的梯度方向360度平均分成9个梯度方向，将每个细胞单元上所有相同梯度方向的像素点的梯度幅值加权累加，加权投影所用的权值为当前像素点的梯度幅值，得到该细胞单元的梯度方向直方图，即该细胞单元对应的9维特征向量；5‑4)将步骤5‑1)选取的图片中按每2×2个细胞单元合成一个网格区域，将每个网格区域中4个细胞单元的梯度直方图连接起来，得到一个网格区域的4×9＝36维的梯度直方图特征；连接所有网格区域的直方图特征，最终得到该图片对应的105×36＝3780维梯度直方图HOG特征；5‑5)重复步骤5‑1)至步骤5‑4)，得到图片检索库C所有图片对应的HOG特征，将所有的HOG特征合并，得到检索库图片特征矩阵Y；6)利用典型相关分析对步骤4)得到的训练样本数据集的声音特征矩阵和步骤5)得到的检索库图片特征矩阵进行降维处理；将X和Y表示为各自特征的线性组合：U＝XaV＝Yb其中，U为降维后的训练样本数据集的声音特征矩阵，V为降维后的检索库图片特征矩阵；a为声音特征矩阵对应的投影向量矩阵，b为图片特征矩阵对应的投影向量矩阵；X和Y的协方差矩阵为：则U和V的协方差矩阵表示为：U和V的相关系数ρ表达式如下：当ρ达到最大时，通过构造拉格朗日函数求解投影向量矩阵a和b；7)物体材质检索；具体步骤如下：7‑1)任意选取一个测试物体，重复步骤2‑1)，采集该测试物体的声音信号，以wav格式保存在计算中作为测试样本；7‑2)重复步骤3‑1)至步骤4‑3)，得到该测试样本对应的1×(3+2Q)维声音特征系数矩阵T；7‑3)将步骤7‑2)得到的测试样本声音特征系数矩阵T乘以步骤6)得到的声音特征矩阵对应的投影向量矩阵a，得到降维后的测试样本声音特征矩阵T’；7‑4)在图片检索库C中随机挑选每个具体物体对应的1张图片，得到由A×B张图片组成检索结果展示集W；重复步骤5)，提取W对应的图片特征矩阵，得到A×B×3780维图片特征矩阵，将该矩阵与步骤6)得到的图片特征矩阵对应的投影向量矩阵b相乘得到降维后的检索结果展示集图像特征矩阵W’；7‑5)计算步骤7‑3)得到的T’和步骤7‑4)得到的W’的欧氏距离，共得到A×B个欧氏距离；7‑6)将步骤7‑5)得到的结果按照升序排列，选取前R个结果对应的检索结果展示集图片即为检索得到的与测试物体最相似的图片，2≤R≤4；7‑7)计算机输出步骤7‑6)得到的R个结果对应的图片并在显示器上进行显示作为测试物体的材质检索结果，检索完成。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学，未经清华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810296069.1/，转载请声明来源钻瓜专利网。

上一篇：基于听觉特性的音乐适用场景自动分类方法
下一篇：一种语音信号处理方法及终端

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种视听觉跨模态物体材质检索方法及系统有效

专利文献下载