[发明专利]一种视听觉跨模态物体材质检索方法及系统有效
申请号: | 201810296069.1 | 申请日: | 2018-03-30 |
公开(公告)号: | CN108520758B | 公开(公告)日: | 2021-05-07 |
发明(设计)人: | 刘华平;刘卓锟;王博文;孙富春 | 申请(专利权)人: | 清华大学 |
主分类号: | G10L25/54 | 分类号: | G10L25/54;G10L25/24;G10L25/21;G06F16/583 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 廖元秋 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视听 觉跨模态 物体 材质 检索 方法 系统 | ||
本发明提出一种视听觉跨模态物体材质检索方法及系统,属于电子信息、人工智能、模式识别和机器学习领域。该系统包括:照相机、麦克风和计算机;该方法首先对材质分类建立图片检索库,对检索库中每个物体敲击采集声音信号,建立训练样本数据集;提取训练样本特征,得到训练样本数据集的声音特征矩阵;对图片检索库提取图片特征,得到检索库图片特征矩阵,分别对两个矩阵降维得到对应投影向量矩阵;检索时,分别获取测试样本降维后的声音特征矩阵和检索结果展示集降维后的图像特征矩阵,计算两个矩阵欧氏距离得到与测试物体最相似的图片即为物体材质检索结果。本发明可弥补仅依靠文字图片识别物体材质的不足之处,得到更准确的物体材质识别结果。
技术领域
本发明提出一种视听觉跨模态物体材质检索方法及系统,属于电子信息、人工智能、模式识别和机器学习领域。
背景技术
在人类的日常生活中,人们不仅使用视觉进行物体识别,而且还使用听觉,触觉和嗅觉等其它感官共同作用。当我们听到轰隆隆的雷声,可能预示即将到来的一场大雨;购买西瓜时,通过判断敲击西瓜产生的声音来判断西瓜成熟与否;中医诊断“望、闻、问、切”中的“闻”和西医使用听诊器听病人的心跳声来判断病人身体状况等等,都是声音在我们日常的生产生活中的应用。
加入声音特征给我们对物体的认知提供了补充信息。随着网络技术的发展,网络购物成为我们生活不可缺少的一部分,但目前的网上购物消费者只能得到购买物体的文字和图片信息,这有时对于消费者而言并不能在大脑完整构建商品的特征信息,导致可能购买到与需求不符的商品。同样的问题也存在于机器人系统。传统的基于视觉信息的识别检索系统对遮挡和光照变化等因素非常敏感在,一些情况下,视觉信息本身不足以识别一个对象。比如在深海和太空探索领域,仅凭摄像机反馈回来的视频和图像不足以让人们确定该物体材质信息,但加入声音反馈后,增加了人类对未知物体的认知。随着机器人技术的不断发展,机器人能够实现与人类或物体进行交互获取更多信息。如何利用多模态信息进行目标识别已经成为一个重要的研究课题。
目前关于图像的检索技术发展比较成熟,关于声音的检索技术也只是涉及人类的语音检索技术,还没有使用作用于物体产生的声音进行检索的相关技术和应用。已存在的利用声音识别材质的装置,存在选取特征单一,识别范围有限的问题,只能实现单一物体的识别,不能实现多个检索结果的功能。
不管是图像还是声音的处理,特征的好坏决定了最终的结果。常用的声学特征有线性预测系数LPC,倒谱系数CEP,梅尔倒谱系数MFCC。声音特征提取的本质就是降维,用较少的维数来表现说话人的特征。梅尔倒谱系数是一种充分利用人耳感知特性的参数。这种参数比基于声道模型的LPCC相比具有更好的鲁邦性,更符合人耳的听觉特性,而且当信噪比降低时仍然具有较好的识别性能。
梯度直方图特征HOG在模式识别领域得到成功应用,如人脸识别、行人检测、目标跟踪等。HOG特征的计算是基于一致空间的密度矩阵来提高准确率。具有计算量小应用广泛的特点。
典型相关分析CCA是利用综合变量对之间的相关关系来反映两组指标之间的整体相关性的多元统计分析方法。它的基本原理是:为了从总体上把握两组指标之间的相关关系,分别在两组变量中提取有代表性的两个综合变量,利用这两个综合变量之间的相关关系来反映两组指标之间的整体相关性。
发明内容
本发明的目的是为克服已有技术的不足之处,提出一种视听觉跨模态物体材质检索方法及系统。本发明通过采集敲击物体产生的声音信号,得出相似的一种或几种物体的图片得到物体材质的检索结果,可弥补仅依靠视觉或文字图片识别物体材质的不足之处,得到更为准确的物体材质识别结果。
本发明提出一种视听觉跨模态物体材质检索方法,其特征在于,该方法包括以下步骤:
1)材质分类并建立图片检索库;具体步骤如下:
1-1)将物体材质划分A种大类材质,并在每种大类材质中根据不同小类材质选取B种具体物体,共得到A×B个不同具体物体;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810296069.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于听觉特性的音乐适用场景自动分类方法
- 下一篇:一种语音信号处理方法及终端