[发明专利]一种视听觉跨模态物体材质检索方法及系统有效

申请号：	201810296069.1	申请日：	2018-03-30
公开（公告）号：	CN108520758B	公开（公告）日：	2021-05-07
发明（设计）人：	刘华平;刘卓锟;王博文;孙富春	申请（专利权）人：	清华大学
主分类号：	G10L25/54	分类号：	G10L25/54;G10L25/24;G10L25/21;G06F16/583
代理公司：	北京清亦华知识产权代理事务所(普通合伙) 11201	代理人：	廖元秋
地址：	100084***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提出一种视听觉跨模态物体材质检索方法及系统，属于电子信息、人工智能、模式识别和机器学习领域。该系统包括：照相机、麦克风和计算机；该方法首先对材质分类建立图片检索库，对检索库中每个物体敲击采集声音信号，建立训练样本数据集；提取训练样本特征，得到训练样本数据集的声音特征矩阵；对图片检索库提取图片特征，得到检索库图片特征矩阵，分别对两个矩阵降维得到对应投影向量矩阵；检索时，分别获取测试样本降维后的声音特征矩阵和检索结果展示集降维后的图像特征矩阵，计算两个矩阵欧氏距离得到与测试物体最相似的图片即为物体材质检索结果。本发明可弥补仅依靠文字图片识别物体材质的不足之处，得到更准确的物体材质识别结果。
搜索关键词：	一种视听觉跨模态物体材质检索方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种视听觉跨模态物体材质检索方法，其特征在于，该方法包括以下步骤：1)材质分类并建立图片检索库；具体步骤如下：1‑1)将物体材质划分A种大类材质，并在每种大类材质中根据不同小类材质选取B种具体物体，共得到A×B个不同具体物体；1‑2)使用照相机拍摄步骤1‑1)中每个具体物体的图片，拍摄角度为被拍摄具体物体正上方，重复拍摄10张图片，每张图片中被拍摄物体占据图片面积四分之三以上，将每张图片像素调整为128×256，将调整后的所有图片组成图片检索库C；2)构建训练样本数据集；具体步骤如下：2‑1)任意选取步骤1)确定的一种小类材质所属的具体物体，使用金属棒敲击该物体表面一次，施加力的范围为2‑10N，并用麦克风对敲击物体表面产生的声音信号进行采集，采集频率为44100Hz，将采集的声音信号作为该小类材质的一个训练样本以wav格式保存在计算机中；每个训练样本采集时长为2s，共88200个数据点；2‑2)重复步骤2‑1)，对步骤2‑1)选定的具体物体重复D次声音信号采集操作，10≤D≤20，保存每次操作采集得到的声音信号，得到该物体对应小类材质的D个训练样本；2‑3)重复步骤2‑1)至步骤2‑2)，对步骤1)确定的所有小类材质对应的具体物体采集相应的声音信号，得到每种小类材质分别对应的D个训练样本，共计A×B×D个训练样本，组成所有小类材质的训练样本数据集；3)对训练样本数据集进行预处理；具体步骤如下：3‑1)利用普减法对每个训练样本进行去噪；3‑2)对步骤3‑1)完成去噪的每个训练样本进行预加重，通过高通滤波器，补偿该训练样本的高频分量损失；表达式如下：H(z)＝1‑μz‑1式中，H(z)代表高通滤波器函数，预加重系数μ为0.97，z代表z变换；3‑3)对步骤3‑2)完成预加重的每个训练样本进行分帧处理，设置帧长为20ms到30ms，每帧包含L个数据点，帧移为1/2L或1/3L，每个训练样本划分为N帧，然后再将每一帧乘以汉明窗得到该帧对应的声音信号记为yi(n)，其中，i代表训练样本分帧后第i帧，1≤i≤N，n为该帧内第n个数据点，1≤n≤L；4)对预处理完毕的训练样本数据集进行特征提取，得到训练样本数据集的声音特征矩阵；具体步骤如下：4‑1)对每个训练样本提取时域特征；对于每个训练样本，时域特征提取采用提取每帧的短时能量E(i)，短时平均幅度M(i)和短时平均过零率Z(i)三个特征，得到该训练样本对应的N×1的短时能量矩阵E，N×1短时平均幅度矩阵M和N×1短时平均过零率矩阵Z；表达式分别如下：式中，L为每帧的数据点个数，sgn[·]是符号函数，表达式如下：4‑2)采用梅尔频率倒谱系数MFCC对每个训练样本提取频域特征；具体步骤如下：4‑2‑1)对步骤3)得到的每个训练样本每一帧yi(n)进行快速傅里叶变换，将训练样本从时域数据转变为频域数据，表达式如下：X(i,k)＝FFT[yi(n)]式中，X(i,k)为快速傅里叶变换得到每帧的频谱，k表示频域中第k条谱线，FFT为快速傅里叶变换；4‑2‑2)把每帧能量[X(i,k)]2通过梅尔滤波器，与梅尔滤波器的频域响应Hm(k)相乘并相加，表达式如下：式中，S(i,m)为通过梅尔滤波器的帧能量，M为梅尔三角滤波器组中滤波器的个数，Hm(k)表达式如下：式中，f_(m)代表第m个Mel滤波器的中心频率，0≤m≤M‑1；4‑2‑3)对每个训练样本每一帧进行离散余弦变换求倒谱,得到每个训练样本的梅尔倒谱系数矩阵；表达式如下：式中，mfcc(i，η)表示第i帧声音信号的第η阶MFCC系数，Q为MFCC系数的总阶数，得到该训练样本对应的N×Q的梅尔倒谱系数矩阵mfcc；4‑2‑4)计算每个训练样本的一阶差分系数矩阵；对每个训练样本的每一帧声音信号求取Q维一阶差分系数,表达式如下：式中，θ表示一阶导数的时间差，得到该训练样本N×Q的特征矩阵一阶差分系数矩阵mfcc′；4‑3)特征融合，得到每个训练样本的声音特征系数矩阵；；将每个训练样本的N×1的短时能量矩阵E，N×1的短时平均幅度矩阵M，N×1的短时平均过零率矩阵Z，N×Q的梅尔倒谱系数矩阵mfcc和N×Q的一阶差分系数矩阵mfcc′按照顺序组合成为该训练样本新的声音特征矩阵，则新的声音特征矩阵的维度为N×(3+2Q)，组合后的新声音特征矩阵的每一列代表该训练样本的一个特征系数，对每一列特征系数求取平均值，最后得到该训练样本的1×(3+2Q)维声音特征系数矩阵；4‑4)将所有训练样本的声音特征系数矩阵合并，得到训练样本数据集的声音特征矩阵X；5)对图片检索库的每张图片进行图片特征提取，得到检索库图片特征矩阵；具体步骤如下：5‑1)从图片检索库C中任意选取一张图片，对该图片按照每16×16个像素作为一个细胞单元进行划分；5‑2)计算步骤5‑1)选取的图片每个细胞单元中的每个像素点的梯度幅值和梯度方向,梯度算子使用简单算子[‑1,0,1],[1,0,‑1]T，对图片进行卷积运算；分别计算像素点沿x轴方向上的梯度值Gx和沿y轴方向上的梯度值Gy，表达式如下：Gx＝H(x+1,y)‑H(x‑1,y)Gy＝H(x,y+1)‑H(x,y‑1)其中，H(x,y)表示图片在像素点(x，y)处的像素值；像素点(x，y)处的梯度和梯度方向如下所示：其中，δ(x,y)为像素点(x，y)处的梯度，γ(x,y)为像素点(x，y)处的梯度方向；5‑3)将细胞单元的梯度方向360度平均分成9个梯度方向，将每个细胞单元上所有相同梯度方向的像素点的梯度幅值加权累加，加权投影所用的权值为当前像素点的梯度幅值，得到该细胞单元的梯度方向直方图，即该细胞单元对应的9维特征向量；5‑4)将步骤5‑1)选取的图片中按每2×2个细胞单元合成一个网格区域，将每个网格区域中4个细胞单元的梯度直方图连接起来，得到一个网格区域的4×9＝36维的梯度直方图特征；连接所有网格区域的直方图特征，最终得到该图片对应的105×36＝3780维梯度直方图HOG特征；5‑5)重复步骤5‑1)至步骤5‑4)，得到图片检索库C所有图片对应的HOG特征，将所有的HOG特征合并，得到检索库图片特征矩阵Y；6)利用典型相关分析对步骤4)得到的训练样本数据集的声音特征矩阵和步骤5)得到的检索库图片特征矩阵进行降维处理；将X和Y表示为各自特征的线性组合：U＝XaV＝Yb其中，U为降维后的训练样本数据集的声音特征矩阵，V为降维后的检索库图片特征矩阵；a为声音特征矩阵对应的投影向量矩阵，b为图片特征矩阵对应的投影向量矩阵；X和Y的协方差矩阵为：则U和V的协方差矩阵表示为：U和V的相关系数ρ表达式如下：当ρ达到最大时，通过构造拉格朗日函数求解投影向量矩阵a和b；7)物体材质检索；具体步骤如下：7‑1)任意选取一个测试物体，重复步骤2‑1)，采集该测试物体的声音信号，以wav格式保存在计算中作为测试样本；7‑2)重复步骤3‑1)至步骤4‑3)，得到该测试样本对应的1×(3+2Q)维声音特征系数矩阵T；7‑3)将步骤7‑2)得到的测试样本声音特征系数矩阵T乘以步骤6)得到的声音特征矩阵对应的投影向量矩阵a，得到降维后的测试样本声音特征矩阵T’；7‑4)在图片检索库C中随机挑选每个具体物体对应的1张图片，得到由A×B张图片组成检索结果展示集W；重复步骤5)，提取W对应的图片特征矩阵，得到A×B×3780维图片特征矩阵，将该矩阵与步骤6)得到的图片特征矩阵对应的投影向量矩阵b相乘得到降维后的检索结果展示集图像特征矩阵W’；7‑5)计算步骤7‑3)得到的T’和步骤7‑4)得到的W’的欧氏距离，共得到A×B个欧氏距离；7‑6)将步骤7‑5)得到的结果按照升序排列，选取前R个结果对应的检索结果展示集图片即为检索得到的与测试物体最相似的图片，2≤R≤4；7‑7)计算机输出步骤7‑6)得到的R个结果对应的图片并在显示器上进行显示作为测试物体的材质检索结果，检索完成。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学，未经清华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810296069.1/，转载请声明来源钻瓜专利网。

上一篇：基于听觉特性的音乐适用场景自动分类方法
下一篇：一种语音信号处理方法及终端

同类专利

基于深度学习的语音关键信息分离方法-202010681349.1
发明人：张建国;叶家艺;茅剑 -专利权人：厦门熙重电子科技有限公司;上海熙重科技有限公司;厦门熙佺文体科技有限公司
申请日： 2020-07-15 - 公布日： 2023-08-04 - 主分类号： G10L25/54
摘要：本发明公开的是基于深度学习的语音关键信息分离方法，包括以下步骤：CNN训练→语音信息标定→语音信息特征聚类→语音信息分离。本发明基于深度学习和聚类的人工智能方法，可以在尽可能减少人工干预的情况下，自动分离语音信号中关键语音信号。在此过程中，并不涉及语义分析，可避免传统语音分离处理流程中的累积误差，也可将本方法作为传统方法预处理手段，进一步提升语音分离效果。

用于音频事件检测的神经网络系统和方法-202310005727.8
发明人：张学帅;肖胜昌;颜永红;张鹏远 -专利权人：中国科学院声学研究所
申请日： 2023-01-04 - 公布日： 2023-06-06 - 主分类号： G10L25/54
摘要：本发明实施例公开了一种用于音频事件检测的神经网络系统和方法，所述系统包括，特征提取层、卷积层、循环神经网络、前馈网络以及自注意力模块，通过对提取音频获得的对数梅尔谱特征进行处理获得卷积核空间三个维度的特征图；并通过对三个维度的特征图进行计算确定卷积核空间三个维度的频率自适应注意力权重；基于三个维度的频率自适应注意力权重和基础卷积核进行乘法运算确定频率自适应卷积核；使用频率自适应卷积核对对提取音频获得的对数梅尔谱特征进行多维频率动态卷积处理得到第一输出特征；并对第一输出特征的序列数据进行处理得到第二输出特征；获得所述音频的强标签和弱标签。

基于语音信息特征数据的商品搜索方法及系统-202310080355.5
发明人：汪莹;杨珑钰;谭旭;戴熠辰;席晓宇;王子任;张馨予;陈奕;李懿嫒;薛景;魏建香 -专利权人：南京邮电大学
申请日： 2023-02-08 - 公布日： 2023-04-28 - 主分类号： G10L25/54
摘要：本发明提供一种基于语音信息特征数据的商品搜索方法及系统，该方法通过卖家用户端收集商品编号id与商品的语音信息，对收集到的商品的语音信息对应的波形图数据转换为三维频谱图序列集；计算获得商品语音信息特征数据的哈希编码后，根据商品编号与得到的商品语音信息特征数据的哈希编码更新数据库服务器中的商品信息；对待搜索商品的语音信息的波形图，转换为待搜索商品的频谱图序列；将待搜索哈希编码与数据库服务器中保存的各商品语音信息特征数据的哈希编码分别计算相似度；将得到的商品信息序列作为商品搜索结果；本发明无需将商品的语音信息转换为文字或普通话等中间形式，能够高效、准确地查找用语音信息作为显著特征的商品。

一种通过语音搜索疾病知识的方法和系统-202011567638.5
发明人：游峰磊;李响;刘沛丰;胡鑫平 -专利权人：北京博瑞彤芸科技股份有限公司
申请日： 2020-12-25 - 公布日： 2023-02-21 - 主分类号： G10L25/54
摘要：本发明实施例涉及一种通过语音搜索疾病知识的方法和系统，所述方法包括：对第一语音数据进行预处理生成第一语句音频数据；对第一语句音频数据，进行第一音频文字识别处理生成第一语句文字数据；对第一语句文字数据，进行第一语义标签识别处理生成第一语义标签数据集合；进行与第一标签类型数据对应的第一疾病分类学习处理，生成多个第一疾病名称数据和对应的第一疾病概率数据；根据每个第一疾病名称数据生成对应的第一疾病知识数据集合；由每个第一疾病名称数据、疾病概率数据、疾病知识数据集合组成第一搜索结果数据；输出第一搜索结果数据集合。本发明实施例省去了不必要的输入过程，节省了信息过滤时间，提高了用户使用体验和信息搜索精度。

关键词检索方法、系统、移动终端及存储介质-202010239637.1
发明人：张广学;肖龙源;李稀敏;刘晓葳;叶志坚 -专利权人：厦门快商通科技股份有限公司
申请日： 2020-03-30 - 公布日： 2023-02-14 - 主分类号： G10L25/54
摘要：本发明提供了一种关键词检索方法、系统、移动终端及存储介质，该方法包括：获取指定关键词库中每个指定关键词的指定声学状态和指定音素状态；根据指定声学状态对滑窗的窗长进行设置，获取待检测语音的当前声学状态，将滑窗设置为当前声学状态；根据滑窗判断待检测语音中语音段的声学状态与指定声学状态是否匹配；若是，则对语音段进行音素状态转换，得到当前音素状态；根据指定音素状态判断当前音素状态对应的音素是否是关键词音素；若是，对语音段进行关键词标记，记录语音段的语音位置。本发明通过指定声学状态和指定音素状态的获取，以采用样本无相关的方式对待检测语音进行关键词的检索，无需获取语音信息的标注数据，提高了关键词检索效率。

一种视频背景音乐的版权识别方法-202211315837.6
发明人：程克非;刘浩;秦蔚蓉 -专利权人：重庆邮电大学
申请日： 2022-10-26 - 公布日： 2023-02-03 - 主分类号： G10L25/54
摘要：本发明属于音频检索技术领域，具体涉及一种视频背景音乐的版权识别方法，包括：确定待识别音频中包含噪音的音乐片段和无噪音的音乐片段；将确定出的包含噪音的音乐片段进行音轨分离，得到伴奏音轨信号；将确定出的无噪音的音乐片段和分离出的伴奏音轨信号设定为待识别音乐片段，并对待识别音乐片段进行时长判断；根据时长确定版权信息，若为多音乐片段，则根据片段的特征向量进行版权的确定，并进行边界检测，得到精确的版权信息。本发明的方法能够降低音频中噪音对音频检索的影响，并且在保证歌曲或翻唱检索准确性的同时，能够准确的识别不同歌曲在目标视频中的起止播放位置，能更加精确的确定出多首音乐的版权信息。

对听觉和视觉会议数据分类以推断用户话语的重要性-202180039741.9
发明人： E·基金-伊尔;D·Y·帕里什 -专利权人：微软技术许可有限责任公司
申请日： 2021-04-21 - 公布日： 2023-01-31 - 主分类号： G10L25/54
摘要：在本公开的非限制性示例中，呈现了用于生成摘要内容的系统、方法和设备。可以接收用于电子会议的语音音频数据和视频数据。可以将语言处理模型应用于音频数据的转录并且可以计算文本重要性分数。可以将视频/图像模型应用于视频数据并且可以计算视觉重要性分数。可以基于文本重要性分数和视觉重要性分数针对电子会议的部分而计算综合重要性分数。可以生成包括来自综合重要性分数超过阈值的部分的摘要内容的会议摘要。

生成声音剪辑的视觉表示-202210453969.9
发明人： J·蒙特福德;M·金 -专利权人：福特全球技术公司
申请日： 2022-04-27 - 公布日： 2022-11-15 - 主分类号： G10L25/54
摘要：本公开提供“生成声音剪辑的视觉表示”。本公开总体上涉及用于生成唯一地识别各种声音的视觉符号的系统和方法。用于生成视觉符号的示例性方法可以涉及识别声音并将量化值分配给所述声音的各种属性。在示例性实现方式中，使用数值模板将量化值分配给每个属性。一组此类量化值构成可以被指定为所述声音的视觉符号的图形表示。在示例性应用中，对应于所述视觉符号的所述量化值可以与对应于其他声音的其他视觉符号的量化值一起存储在存储器中。然后，所述存储器可以用于各种目的，诸如例如执行对与期望声音类似的声音的搜索。

异常音频检测方法及故障音频样本的更新方法-202210657509.8
发明人：陈丹 -专利权人：杭州海康威视数字技术股份有限公司
申请日： 2022-06-10 - 公布日： 2022-10-04 - 主分类号： G10L25/54
摘要：本申请提供一种异常音频检测方法及故障音频样本的更新方法，该方法包括：获取待检测音频数据；在确定所述待检测音频数据存在异常的情况下，确定所述待检测音频数据的初始故障类型；依据正样本和/或负样本对所述待检测音频数据进行二次检测，并依据二次检测结果以及所述初始故障类型，确定所述待检测音频数据的最终故障类型。该方法可以提高故障类型检测的准确性。

一种语音关键词检索方法、系统和电子装置-202110412011.0
发明人：程高峰;杨润延;黎塔;张鹏远;颜永红 -专利权人：中国科学院声学研究所
申请日： 2021-04-16 - 公布日： 2022-09-09 - 主分类号： G10L25/54
摘要：本申请实施例提供了一种语音关键词检索方法，包括：获取语音信号；提取所述语音信号的声学特征；所述声学特征为梅尔频率倒谱系数声学特征；将所述声学特征输入端到端语音识别及音素分类模型进行解码，输出至少一条候选文本和音素后验概率；检索所述至少一条候选文本的关键词；根据所述关键词将对应的候选文本转换为音素序列，并在所述音素序列中插入静音音素；对所述音素后验概率和所述音素序列计算，获得所述关键词的起止时间点和置信度；对所述关键词检索结果按所述置信度进行判决，保留置信度符合判决标准的关键词作为最终的关键词检索结果。

一种艺术家分类方法、系统、终端及存储介质-202210516100.4
发明人：张旭龙;王健宗;程宁 -专利权人：平安科技（深圳）有限公司
申请日： 2022-05-12 - 公布日： 2022-08-30 - 主分类号： G10L25/54
摘要：本发明公开了一种艺术家分类方法、系统、终端及存储介质。所述方法包括：获取原始音频信号的第一频谱，并利用编码器对第一频谱进行编码处理，得到编码后的连续变量，连续变量中包含原始音频信号的音色信息和音频内容信息；对连续变量进行实例正则化，并利用码书中的离散码字对实例正则化结果进行矢量量化，矢量量化结果表示原始音频信号的音频内容信息；将连续变量与矢量量化结果做差，得到连续变量与矢量量化结果之间的差值，将差值作为原始音频信号的第一音色特征，第一音色特征为原始音频信号中的音色逐帧变化特征；将第一音色特征输入艺术家分类网络，通过艺术家分类网络输出原始音频信号的艺术家分类结果。本申请提高了艺术家分类的准确度。

一种文字校验方法及装置-201711386355.9
发明人：王群 -专利权人：苏州君林智能科技有限公司
申请日： 2017-12-20 - 公布日： 2022-05-24 - 主分类号： G10L25/54
摘要：本发明实施例提供了一种文字校验方法及装置，该方法包括当检测到播放指令时，获取文本中待校验的文字，所述待校验的文字包括至少一个文字；确定所述待校验的文字对应的目标语音信号片段，所述待校验的文字所在的文字段为所述目标语音信号片段经过语音识别后生成的文字段，所述文本包括至少一个文字段，每个文字段对应一个语音信号片段；播放所述目标语音信号片段。本发明实施例在确定待校验的文字后，可以根据待校验的文字对应的时间戳准确地确定相应的语音信号片段并进行播放，所以本实施例提供的方法使用比较方便，能够提高校验效率。

音频处理方法、装置、电子设备及存储介质-202210044575.8
发明人：黄远望;王维华;严从现 -专利权人： OPPO广东移动通信有限公司
申请日： 2022-01-14 - 公布日： 2022-04-29 - 主分类号： G10L25/54
摘要：本申请公开了一种音频处理方法、装置、电子设备及存储介质，该音频处理方法应用于电子设备，该音频处理方法包括：获取音频数据以及所述音频数据对应的时间戳，并获取用于标记所述音频数据的目标图片；获取对所述音频数据的标记指令，所述标记指令中包含标记时间戳；根据所述标记指令中包含的标记时间戳以及所述时间戳的对应关系，将所述目标图片与所述音频数据进行关联。本方法可以实现利用图片以及标记时间戳对音频数据进行标记，满足用户对音频数据中的不同时间点的数据进行标记的需求。

基于音频指纹的处理方法、装置、设备及存储介质-202210010673.X
发明人：徐雯;李玉乐;项伟 -专利权人：百果园技术（新加坡）有限公司
申请日： 2022-01-06 - 公布日： 2022-04-29 - 主分类号： G10L25/54
摘要：本发明实施例公开了基于音频指纹的处理方法、装置、设备及存储介质。其中，该方法包括：确定待入库的第一音频资源的第一指纹信息，将第一指纹信息与预设指纹库中的各指纹信息进行匹配，若存在与第一指纹信息匹配成功的第二指纹信息，则禁止执行第一指纹信息的入库操作，并在预设入库资源信息库中更新第二指纹信息关联的库内资源标识的匹配次数。通过采用上述技术方案，在需要入库音频指纹信息时，先判断指纹库中是否存在与其匹配的指纹信息，若存在，则禁止入库，并在资源信息库中更新关联的库内资源标识的匹配次数，通过资源信息库中的库内资源标识对音频指纹进行聚类，从而有效节约指纹库的存储空间。

一种歌曲识别方法、装置、存储介质及电子设备-201910887630.8
发明人：孔令城 -专利权人：腾讯音乐娱乐科技（深圳）有限公司
申请日： 2019-09-19 - 公布日： 2022-04-05 - 主分类号： G10L25/54
摘要：本发明实施例公开了一种歌曲识别方法、装置、存储介质及电子设备。该方案通过获取目标歌曲片段，对目标歌曲片段进行变换处理，生成对应的第一频谱图；根据第一频谱图和预设的神经网络模型，生成多维的第一特征向量；获取预存歌曲的第二特征向量；计算第一特征向量与第二特征向量之间的相似度，并确定最大相似度；若最大相似度大于预设阈值，则判定目标歌曲片段与最大相似度对应的预存歌曲为同一首歌曲的不同版本，以提高对翻唱歌曲的识别准确率。

语音数据搜索方法及系统-201610279205.7
发明人：徐桃 -专利权人：努比亚技术有限公司
申请日： 2016-04-29 - 公布日： 2022-01-14 - 主分类号： G10L25/54
摘要：本发明公开了一种语音数据搜索方法及系统，属于数据检索领域。该方法包括：接收用户通过操作搜索键输入的搜索指令、语音信息及模糊搜索范围；根据接收到的语音信息和模糊搜索范围确定搜索条件，所述搜索条件为用户输入的语音信息确定的关键字及模糊搜索范围确定的关键字之间间隔的字符数，和/或语音信息的声纹特征；根据确认的搜索条件搜索语音数据，找到与搜索条件相匹配的语音数据。由此，可以迅速为用户定位想要搜索的语音数据，方便快捷，增强了用户体验。

语音脱敏方法、装置、电子设备及存储介质-202111144335.7
发明人：曹鹏;吴华鑫;吴江照;潘嘉 -专利权人：合肥智能语音创新发展有限公司
申请日： 2021-09-28 - 公布日： 2022-01-11 - 主分类号： G10L25/54
摘要：本发明提供一种语音脱敏方法、装置、电子设备及存储介质，其中方法包括：确定待脱敏的语音数据；将语音数据中每一语音帧的幅度谱输入至敏感语音检测模型，得到敏感语音检测模型输出的每一语音帧的语音掩码；敏感语音检测模型基于样本通用语音以及其中每一样本语音帧的通用掩码，和样本敏感词语音以及其中每一样本语音帧的敏感掩码训练得到；基于每一语音帧的语音掩码，消除语音数据中的敏感信息。本发明提供的方法、装置、电子设备和存储介质，能够通过使用敏感语音检测模型基于输入的语音帧的幅度谱，输出语音掩码以定位敏感词，并将该敏感词脱敏，克服敏感信息易泄露或过度消除语音以及效率和识别率低的问题，实现了语音实时精准的脱敏。

语音识别装置、语音识别方法以及存储介质-201710760251.3
发明人：益子贵史 -专利权人：株式会社东芝
申请日： 2017-08-30 - 公布日： 2022-01-11 - 主分类号： G10L25/54
摘要：本发明涉及语音识别装置、语音识别方法以及存储介质，能够高精度地进行识别。语音识别装置具备计算部和搜索部。搜索部通过搜索搜索模型，检测对得到得分向量列中的可能的声音得分的输入记号进行追踪的路径，输出对搜索模型中的检测出的路径分配的输出记号。记号集合包括表示识别对象的音韵的识别对象记号和表示填充词等的附加记号而作为输入记号。搜索模型包括被分配有输入记号串和输出记号的多个路径。搜索部在受理了附加记号作为得到可能的声音得分的输入记号的情况下，从包括所受理的附加记号的得分向量的下个得分向量开始搜索与新的输出记号对应的路径。

检索音频和训练声学模型的方法、终端及存储介质-202111022458.3
发明人：张斌 -专利权人：腾讯音乐娱乐科技（深圳）有限公司
申请日： 2021-09-01 - 公布日： 2021-11-30 - 主分类号： G10L25/54
摘要：本申请公开了一种检索音频和训练声学模型的方法、终端及存储介质，属于互联网技术领域。该方法包括：提取待检索的目标音频片段的目标频谱数据；基于目标频谱数据，确定目标特征信息；将目标特征信息分别输入训练完成的声学模型中的第一解码器和第二解码器，得到第一目标概率矩阵和第二目标概率矩阵；根据第一目标概率矩阵和第二目标概率矩阵，确定音节序列；确定音节序列分别和参考音节序列库中每个参考音节序列之间的相似度，并确定相似度最大的预设数目个目标参考音节序列，将目标参考音节序列对应的目标音频标识确定为检索结果。本申请可以直接通过音频片段进行检索，避免了当用户不知道歌曲的名称时，无法进行检索的问题。

主旋律音高序列估计方法-201810390549.4
发明人：张维维;陈喆;殷福亮;许小可 -专利权人：大连民族大学
申请日： 2018-04-27 - 公布日： 2021-11-12 - 主分类号： G10L25/54
摘要：主旋律音高序列估计方法，属于音乐信息检索领域，为了解决降低短时强伴奏的影响及八度误差的问题，要点是将每帧主旋律音高序列平滑估计值的上下八度范围作为该帧的主旋律音高的搜索范围，效果是将每个频率点的显著度值定义为各次谐波分量幅度的加权和，进一步降低了八度误差。

一种音频检索识别方法及装置-201810273699.7
发明人：李根;李磊;何轶 -专利权人：北京字节跳动网络技术有限公司
申请日： 2018-03-29 - 公布日： 2021-09-03 - 主分类号： G10L25/54
摘要：本公开涉及一种音频检索识别方法及装置，所述方法包括：获取待识别音频的音频指纹，其中，所述音频指纹包括用于表示所述待识别音频的内容特征的第一部分以及用于表示所述第一部分的可信程度的第二部分；根据所述音频指纹对所述待识别音频进行识别，得到识别结果。

基于声纹信息对音频/视频文件进行操作的方法及装置-201710439537.1
发明人：杨帆;苏腾荣;李世全;马永健 -专利权人：北京三星通信技术研究有限公司;三星电子株式会社
申请日： 2012-12-05 - 公布日： 2021-08-20 - 主分类号： G10L25/54
摘要：本发明公开一种基于声纹信息对音/视频文件进行操作的方法，包括如下步骤：采集发声目标的声纹信息；以及根据所述声纹信息搜索音/视频文件。本发明还提供了一种终端设备。本发明提出的技术方案，能够根据特定联系人的声纹信息对音/视频文件进行分类，当用户想找到包含有特定联系人的音/视频文件，不必一个一个文件的播放查看，而是直接进行选择，从而方便用户查找含有特定人员声音的音视频文件。进一步地，本发明提供的基于声纹信息对音/视频文件进行操作的方法可以直接跳转到音/视频中某个联系人说话的时间节点进行播放，从而提供用户的搜索效率。

地址搜索方法、装置、电子设备及存储介质-202110310987.7
发明人：黄海涛 -专利权人：汉海信息技术(上海)有限公司
申请日： 2021-03-23 - 公布日： 2021-07-30 - 主分类号： G10L25/54
摘要：本发明实施例提供了一种地址搜索方法、装置、电子设备及存储介质。地址搜索方法包括：接收用户输入的语音数据；将所述语音数据转换为拼音序列；将所述拼音序列转换为文本序列；对所述文本序列进行地址识别，提取所述文本序列中包含的地址信息；基于所述地址信息，搜索所述地址信息对应的目标地址。本发明实施例中，通过先将用户输入的语音数据转换为拼音序列，再将拼音序列转换为文本序列的方式，得到的文本序列更加准确；通过对文本序列进行地址识别，提取文本序列中包含的地址信息的方式，能够去除文本序列中非地址信息的干扰，得到更加准确的地址信息。因此，基于提取出的地址信息，能够更加准确地搜索出该地址信息对应的目标地址。

音频检测方法及装置-201610201533.5
发明人：张荣 -专利权人：阿里巴巴集团控股有限公司
申请日： 2016-03-31 - 公布日： 2021-07-16 - 主分类号： G10L25/54
摘要：本申请公开了一种音频检测方法及装置。其中，该方法包括：获取待测音频文件的音频指纹；对于所述待测音频文件的每个音频指纹，从与所述音频指纹对应的倒排列表中查找所述待测音频文件的相似音频文件；其中，所述倒排列表中的每条记录包括：样本音频文件标识，以及样本指纹在样本音频文件中出现的位置，所述样本音频文件为所述样本音频文件标识所指示的音频文件；获取所述待测音频文件与所述相似音频文件的相似度，并根据所述相似度确定所述待测音频文件是否为指定类型的音频。

一种语音检索方法及系统-201910500492.3
发明人：张秋余;李改莉;胡颖杰;李昱洲;张登海;韩继田;张永兵 -专利权人：兰州理工大学
申请日： 2019-06-11 - 公布日： 2021-05-28 - 主分类号： G10L25/54
摘要：本发明公开了一种语音检索方法及系统，涉及语音检索技术领域。该方法包括：获取查询语音；提取查询语音的第二哈希序列；将第二哈希序列与建立的系统哈希索引表进行匹配，得到与第二哈希序列匹配的第一哈希序列；在建立的密文语音库中根据第一哈希序列获取原始文件；建立密文语音库；建立系统哈希索引表。该方法借鉴生物哈希技术，对原始语音进行特征提取，获取原始语音的第一哈希序列，将第一哈希序列作为检索摘要，通过比较第一哈希序列和查询语音的第二哈希序列的汉明距离，完成检索内容的匹配。该方法通过采用生物哈希技术提取语音的哈希摘要，提高了语音哈希摘要的安全性。

一种视听觉跨模态物体材质检索方法及系统-201810296069.1
发明人：刘华平;刘卓锟;王博文;孙富春 -专利权人：清华大学
申请日： 2018-03-30 - 公布日： 2021-05-07 - 主分类号： G10L25/54
摘要：本发明提出一种视听觉跨模态物体材质检索方法及系统，属于电子信息、人工智能、模式识别和机器学习领域。该系统包括：照相机、麦克风和计算机；该方法首先对材质分类建立图片检索库，对检索库中每个物体敲击采集声音信号，建立训练样本数据集；提取训练样本特征，得到训练样本数据集的声音特征矩阵；对图片检索库提取图片特征，得到检索库图片特征矩阵，分别对两个矩阵降维得到对应投影向量矩阵；检索时，分别获取测试样本降维后的声音特征矩阵和检索结果展示集降维后的图像特征矩阵，计算两个矩阵欧氏距离得到与测试物体最相似的图片即为物体材质检索结果。本发明可弥补仅依靠文字图片识别物体材质的不足之处，得到更准确的物体材质识别结果。

一种检测并定位语音片段内的平滑处理的方法-201810055610.X
发明人：闫琦;杨锐;黄继武 -专利权人：深圳大学;中山大学
申请日： 2018-01-19 - 公布日： 2021-05-04 - 主分类号： G10L25/54
摘要：本发明公开了一种检测并定位语音片段内的平滑处理的方法，包括以下步骤：S1.选定平滑滤波器；S2.选取原始语音，提取原始语音集，并通过所述滤波器处理成训练语音集；S3.从原始语音和训练语音集提取特征集；S4.将原始语音的特征集和训练语音集的特征集各筛选出样本，采用分类器训练出SVM分类器模型；S5.选取待测语音，将待测语音进行分帧，对每一帧信号都提取待测语音特征集；S6.使用步骤S4的SVM分类器模型对待测语音特征集进行分类，判断信号是否经过平滑处理，如果是，则定位平滑处理所在的位置。本发明的优点在于，本发明提出的方法比现有同类的检测方法明显具有更高的检测率，可以作为判别数字语音是否被平滑处理的一种高成功率的方法。

一种音频识别方法、装置、设备及存储介质-201910270746.7
发明人：鲁霄 -专利权人：腾讯音乐娱乐科技（深圳）有限公司
申请日： 2019-04-04 - 公布日： 2021-04-20 - 主分类号： G10L25/54
摘要：本发明实施例公开了一种音频识别方法、装置、设备及存储介质；本发明实施例可以提取待识别音频的音频指纹作为基准指纹，计算基准指纹与预设指纹库中音频指纹的相似度；根据基准指纹与指纹库中音频指纹的相似度，在指纹库中筛选出候选指纹集；在候选指纹集中选出参考指纹，并获取参考指纹的同音指纹；在参考指纹及其同音指纹对应的音频中，选出待识别音频对应的目标音频。该方案提升了音频识别的精细化程度，识别得到更加准确的目标音频。

音乐特效匹配方法及装置-201810787419.4
发明人：车君怡;任续超;张学斌 -专利权人：黑盒子科技（北京）有限公司
申请日： 2018-07-17 - 公布日： 2021-04-02 - 主分类号： G10L25/54
摘要：本发明提供了一种音乐特效匹配方法及装置，涉及音乐识别技术领域，该方法包括：获取待匹配的音频数据，检测音频数据的节拍；判断该节拍是否为音频数据的节奏变化点，如果是，将节拍标记为可选音乐段落起始点，生成起始点列表；按照预先设置的起始点选取规则，在起始点列表中选取音乐段落起始点，将音频数据划分成多个音乐段落；设置每个音乐段落的情感标签，计算每个情感标签的情感分数；在预先存储的特效数据库中查找与情感分数匹配的视觉表达效果并与音乐段落关联存储，以使音频数据被读取时，播放视觉表达效果。本发明提供的音乐特效匹配方法及装置，助于用户与音乐的情感交互，提升了用户的体验度。

音频分析系统及其分析方法-202011556299.0
发明人：庞飞翔;严龙 -专利权人：北京睿芯高通量科技有限公司
申请日： 2020-12-24 - 公布日： 2021-03-26 - 主分类号： G10L25/54
摘要：本公开涉及音频分析系统及其分析方法，音频分析系统包括：前端机处理装置和音频分析装置，所述前端机处理装置和所述音频分析装置通过网络连接，其中，所述前端机处理装置包括抓取模块，该抓取模块用于抓取网络上的媒体流数据，所述音频分析装置接收来自所述前端机处理装置的媒体流数据，对该媒体流数据进行分析，所述音频分析装置包括：拼包模块、音视频分离模块、解码模块以及检测模块，该检测模块对所述音频数据的内容进行分析检测，具有样例匹配检测模块，该样例匹配检测模块通过在预先建立的样例检测库，优选进行音频样例比对。本发明通过分析服务器实现样例匹配库来过滤已知媒体流信息，大大减少检测压力，提升检测效率。

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种视听觉跨模态物体材质检索方法及系统有效

专利文献下载