“音频特征提取”专利关键词查询_检索下载_查询列表_检索列表_行业专利分布_钻瓜专利网

钻瓜专利网为您找到相关结果3055603个，建议您升级VIP下载更多相关专利

[发明专利]拥有智能感知作用的自助售货广告管理系统的信息采集装置及采集方法-CN201910096982.1在审
发明人：王家军 -专利权人：安徽智佳信息科技有限公司
申请日： 2019-01-31 - 公布日： 2019-06-21 - 主分类号： G10L15/02 文献下载
摘要：本发明公开了一种拥有智能感知作用的自助售货广告管理系统的信息采集装置，包括麦克风阵列、音频特征提取模块、声源定位模块、人声识别模块和人声特征库，所述麦克风阵列设在自助售货机的两侧，所述音频特征提取模块分别与各个麦克风相连，所述声源定位模块，计算出各类音频特征对应的声源位置，并将声源位置符合声源识别范围的音频特征提取后发送到所述人声识别模块；所述人声识别模块，用于对声源识别范围内的音频特征作进一步采样和提取以识别出符合人声特征的音频特征并发出识别结果
人声识别音频特征音频特征提取模块广告管理系统声源定位模块信息采集装置麦克风阵列声源位置智能感知声源音频特征提取自助售货机麦克风广告视频环境噪音特征库采样采集传播

[发明专利]利用音频判别模型对音频进行判别的判别设备及存储介质-CN202210046402.X在审
发明人：颜永红;张学帅;张鹏远 -专利权人：中国科学院声学研究所
申请日： 2022-01-14 - 公布日： 2022-04-26 - 主分类号： G10L25/66 文献下载
摘要：本说明书实施例提供一种利用音频判别模型对音频进行判别的判别设备及存储介质，判别设备包括：第一预处理模块，配置为对待判别咳嗽音频进行处理，得到目标梅尔谱特征；第一划分模块，配置为对目标梅尔谱特征进行划分，得到处于不同频段的第一梅尔谱特征和第二梅尔谱特征；频域特征提取模块，配置为将第一梅尔谱特征以及第二梅尔谱特征输入频域特征提取层，得到第一频域特征和第二频域特征；时序特征提取模块，配置为将第一梅尔谱特征及第二梅尔谱特征输入时序特征提取层，得到第一时序特征和第二时序特征；分类模块，配置为将第一频域特征、第二频域特征、第一时序特征和第二时序特征输入分类层，得到待判别咳嗽音频携带指定肺炎信息的概率。
利用音频判别模型进行别的设备存储介质

[发明专利]音频特征提取方法及装置-CN202310767508.3在审
发明人：吕少卿;俞鸣园;王克彦;孙俊伟;曹亚曦 -专利权人：浙江华创视讯科技有限公司
申请日： 2023-06-26 - 公布日： 2023-09-29 - 主分类号： G10L21/0232 文献下载
摘要：本发明实施例提供了一种音频特征提取方法及装置，其中，该方法包括：获取目标音频信号的倒谱系数集合，其中，倒谱系数集合中记录了目标音频信号的倒谱系数；对倒谱系数集合中的倒谱系数进行分组，得到第一子带集合，其中第一子带集合中包括多个子带，每个子带中包括倒谱系数集合中的多个倒谱系数；对第一子带集合中每个子带中的倒谱系数进行正则化处理，得到目标子带集合，其中，目标子带集合中的子带与第一子带集合中的子带一一对应；根据目标子带集合确定目标音频信号的音频特征通过本发明，解决了相关技术中存在的提取音频特征时无法有效抑制抗噪声的问题。
音频特征提取方法装置

[实用新型]基于图像识别的智能玩具-CN201521012603.X有效
发明人：王泽桐;冷分田;李小兰 -专利权人：江西英博科技实业有限公司
申请日： 2015-12-09 - 公布日： 2016-05-18 - 主分类号： A63H33/00 文献下载
摘要：本实用新型公开了一种基于图像识别的智能玩具，包括一玩具本体和多个卡片；多个卡片分别为各种动物形状；玩具本体包括一图像采集装置、一特征提取模块、一控制器、一存储有各种动物的形状特征和各种动物叫声的音频数据的存储器、一音频功放和一喇叭，控制器分别与特征提取模块、存储器、音频功放电连接，图像采集装置与特征提取模块电连接，音频功放与喇叭电连接。
基于图像识别智能玩具

[发明专利]基于人工智能的网络训练方法及装置、电子设备-CN202111146925.3有效
发明人：张旭龙;王健宗 -专利权人：平安科技（深圳）有限公司
申请日： 2021-09-28 - 公布日： 2023-09-01 - 主分类号： G06N3/08 文献下载
摘要：本申请的实施例揭示了一种基于人工智能的网络训练方法、装置、电子设备和存储介质，方法包括：提取音频样本的第一音频特征和第二音频特征，文本样本的第一文本特征和第二文本特征；将第一音频特征和第一文本特征融合得到第一融合特征，将第二音频特征和第二文本特征融合得到第二融合特征；提取第一融合特征对应的第三音频特征和第四音频特征，提取第二融合特征对应的第三文本特征和第四文本特征；将第三音频特征和第三文本特征融合，将第四音频特征和第四文本特征融合；基于第一损失值和第二损失值之和，调整第二音频特征提取网络的参数，使得第二音频特征提取网络具备提取音频样本中与文本样本相似特征的能力。
基于人工智能网络训练方法装置电子设备

[发明专利]一种音视频多模态的关键词唤醒方法及装置-CN202310909532.6在审
发明人：白炳潮;宛敏红;宋伟;朱世强 -专利权人：之江实验室
申请日： 2023-07-24 - 公布日： 2023-08-22 - 主分类号： G10L15/02 文献下载
摘要：本发明公开了一种音视频多模态的关键词唤醒方法及装置，该方法包括：获取图像序列和音频序列；对所述图像序列进行嘴唇检测处理并提取检测到的嘴唇部分图像，将提取出的嘴唇图像序列利用嘴唇特征提取神经网络进行处理，得到图像特征；对所述音频序列做音频特征提取，将提取到的音频特征利用音频特征处理神经网络进行处理，得到音频高维特征；对所述图像特征和所述音频高维特征进行特征融合；将融合得到的音视频特征利用多模特征处理神经网络进行处理，得到多模高维特征；将所述图像特征、音频高维特征和多模高维特征融合成一个混合高维特征；基于所述混合高维特征，利用关键词唤醒分类器判断是否需要唤醒。
一种视频多模态关键词唤醒方法装置

[发明专利]一种音视频多模态情感分类方法及系统-CN202110646620.2有效
发明人：岑敬伦;李志鹏;青春美;罗万相 -专利权人：华南理工大学
申请日： 2021-06-10 - 公布日： 2022-06-14 - 主分类号： G06V40/16 文献下载
摘要：本发明涉及语音和图像处理、模式识别领域，为一种音视频多模态情感分类方法及系统，其方法包括步骤：对原始视频数据的处理与计算，得到视频数据样本、音频数据样本及文本特征样本；构建情感特征提取网络，分别对视频数据样本、音频数据样本及文本特征样本进行特征提取，获得多模态中的视觉模态特征、音频特征及文本特征；将提取到的视觉模态特征、音频特征及文本特征进行维度统一，输入到张量融合网络中进行融合学习，最后进行分类输出多模态情感分类概率结果本发明能够对跨模态之间的情感信息进行有效的整合，对视频、音频及文本进行时空高维度上的特征提取，拼接成多模态特征向量，再融合学习并进行情感分类。
一种视频多模态情感分类方法系统

[发明专利]基于音频特征分析的提升机电机智能监测系统-CN202110070287.5在审
发明人：李敬兆;鲁良伟 -专利权人：安徽理工大学
申请日： 2021-01-19 - 公布日： 2021-05-04 - 主分类号： B66B5/00 文献下载
摘要：本发明涉及一种基于音频特征分析的提升机电机智能监测系统，所述系统由采集节点微处理器、Wi‑Fi无线通信模块a、电源模块a、音频采集模块、分析节点微处理器、Wi‑Fi无线通信模块b、电源模块b、音频特征提取分析模块分析节点微处理器控制音频采集模块采集提升机电机的音频数据，将微处理后的数据经由Wi‑Fi无线通信模块a发送给分析节点；分析节点微处理器控制音频特征提取分析模块对采集节点发来的数据进行特征提取分析，并将特征提取分析后的数据分别经由串口线和
基于音频特征分析提升机电机智监测系统

[实用新型]基于音频特征分析的提升机电机智能监测系统-CN202120148901.0有效
发明人：李敬兆;鲁良伟 -专利权人：安徽理工大学
申请日： 2021-01-19 - 公布日： 2021-10-08 - 主分类号： B66B5/00 文献下载
摘要：本实用新型涉及一种基于音频特征分析的提升机电机智能监测系统，所述系统由采集节点微处理器、Wi‑Fi无线通信模块a、电源模块a、音频采集模块、分析节点微处理器、Wi‑Fi无线通信模块b、电源模块b、音频特征提取分析模块分析节点微处理器控制音频采集模块采集提升机电机的音频数据，将微处理后的数据经由Wi‑Fi无线通信模块a发送给分析节点；分析节点微处理器控制音频特征提取分析模块对采集节点发来的数据进行特征提取分析，并将特征提取分析后的数据分别经由串口线和
基于音频特征分析提升机电机智监测系统

[发明专利]音频播放方法、装置、存储介质及移动终端-CN201911368033.0有效
发明人：徐云峰;刘世顺 -专利权人：惠州TCL移动通信有限公司
申请日： 2019-12-26 - 公布日： 2021-08-03 - 主分类号： H04M1/72442 文献下载
摘要：本申请公开了一种音频播放方法、装置、存储介质及移动终端，方法包括：当接收到消息或者来电时，按照预设音量值播放提示信息；录制播放中的所述提示信息，得到当前场景音频文件；对所述当前场景音频文件进行频谱特征提取，判断提取出的目标频谱特征值是否在预设频谱特征值范围内，所述预设频谱特征值范围为对预设音频文件进行频谱特征提取得到的频谱特征值范围；若目标频谱特征值未在预设频谱特征值范围内，则基于所述预设音频文件对所述预设音量值进行调整，并按照调整后的音量值播放所述预设音频文件。通过对录制的当前场景音频文件进行频谱特征提取，以判断当前场景是否为嘈杂环境，从而自动调整音量值，以使用户可以听到提示信息。
音频播放方法装置存储介质移动终端

[发明专利]一种基于门控循环神经网络的无参考音视频质量评价方法-CN202110814227.X有效
发明人：闵雄阔;曹于勤;孙伟;朱煜程;高艺璇;翟广涛 -专利权人：上海交通大学
申请日： 2021-07-19 - 公布日： 2022-09-02 - 主分类号： H04N17/00 文献下载
摘要：本发明提供了一种基于门控循环神经网络的无参考音视频质量评价方法，首先通过短时特征提取模块中卷积神经网络提取视频信号和音频信号的短时特征，之后利用长时特征提取模块中门控循环神经网络从视频信号和音频信号的短时特征中学习相邻帧之间的关联性，提取长时特征，最后通过特征融合模块中全连接层将音频信号和视觉信号的长时特征进行融合，得到音视频客观质量评价分数。在短时特征提取时，首先将视频信号按时序依次将单帧图像分割为图像小块、音频信号通过短时傅里叶变换将短音频段转换为二维语谱图，之后利用卷积神经网络从图像小块和二维语谱图提取深层语义特征。
一种基于门控循环神经网络参考视频质量评价方法

[发明专利]一种基于音频特征的细粒度音乐节奏提取系统及方法-CN201910695879.9在审
发明人：杨辞源;孟泽;任续超;张学斌 -专利权人：黑盒子科技(北京)有限公司
申请日： 2019-07-30 - 公布日： 2019-12-03 - 主分类号： G10H1/00 文献下载
摘要：本发明实施例公开了一种基于音频特征的细粒度音乐节奏提取系统及方法，所述系统包括：去噪模块、音频分离模块、特征提取模块、特征合并模块和输出模块，所述去噪模块消除歌曲中的噪声，所述音频分离模块提取歌曲中的伴奏轨道和节奏乐器轨道，所述特征提取模块提取伴奏轨道或节奏乐器轨道中的节拍和音头，所述特征合并模块将提取出的节拍和音头进行混合算法处理，得到节奏特征突出的音频数据，所述输出模块将节奏特征突出的音频数据输出为python数据接口，外部设备从python数据接口获取歌曲节奏特征。本发明解决了现有音乐提取系统不能准确提取拟合音乐节奏的问题。
特征提取模块轨道分离模块节奏乐器节奏特征输出模块数据接口特征合并音乐节奏音频数据去噪节拍伴奏外部设备歌曲节奏混合算法提取系统音乐提取音频特征歌曲细粒度拟合噪声输出

[发明专利]一种基于transformer的声场景分类方法-CN202310065531.8在审
发明人：张晓明;王廷德;卓思超;王芳;黎泉龙;管玙璠 -专利权人：北京石油化工学院
申请日： 2023-02-06 - 公布日： 2023-03-14 - 主分类号： G10L25/51 文献下载
摘要：本发明公开了一种基于transformer的声场景分类方法，涉及声场景分类技术领域，包括以下步骤：获取待分类的音频数据；基于特征金字塔网络构建声场景分类模型，其包括特征提取模块和特征融合模块；特征提取模块包括依次连接的一个PatchPartition层，及多个特征提取层，多个特征提取层中分别连接有两个SwinTransformerBlock；特征融合模块对多个特征提取层生成的特征图进行级联合并处理；利用声场景分类模型对待分类的音频数据进行分类本发明实现对层级网络间特征图信息的关注，通过融合特征图的方式使图像包含更多的语义及空间信息，能更快完成模型收敛，显著提高声场景分类的准确率。
一种基于 transformer 声场分类方法

[发明专利]优化方法、识别方法、优化装置、识别装置、设备和介质-CN202310849178.2在审
发明人：吴晓雨;尚怡萌;蒲禹江 -专利权人：中国传媒大学
申请日： 2023-07-11 - 公布日： 2023-10-10 - 主分类号： G06V20/40 文献下载
摘要：本申请通过利用特征提取网络从训练视频中提取初始音频特征、输入音频特征、局部表观特征、全局表观特征、输入表观特征和光流特征：根据所述全局表观特征和所述初始音频特征确定全局音频正样本和全局音频负样本；根据所述局部表观特征和所述初始音频特征确定局部音频正样本和局部音频负样本；根据所述全局视音频特征对比损失、所述局部视音频特征对比损失、所述互蒸馏损失和所述分类损失优化所述特征提取网络。
优化方法识别装置设备介质

[发明专利]分类信息生成方法、装置、电子设备和计算机可读介质-CN202310363100.X在审
发明人：李建华;王静宇;李蹊;郭宝松;郑鑫颖;赵丽媛 -专利权人：中关村科学城城市大脑股份有限公司
申请日： 2023-04-07 - 公布日： 2023-08-22 - 主分类号： G06V20/40 文献下载
摘要：该方法的一具体实施方式包括：确定业务记录视频集合中的每个业务视频包括的音频数据和视频数据，得到音频数据集合和视频数据集合；将音频数据集合、视频数据集合和业务单文本数据集合分别输入视频音频特征提取模型、视频特征提取模型和文本特征提取模型，得到音频特征向量集合、视频特征向量集合和文本特征向量集合；根据视频特征向量集合、音频特征向量集合和文本特征向量集合，生成特征融合向量集合；根据特征融合向量集合和特征分类模型，生成每个特征融合向量对应的业务情景分类信息
分类信息生成方法装置电子设备计算机可读介质