“音频特征提取”专利关键词查询_检索下载_查询列表_检索列表_行业专利分布_钻瓜专利网

钻瓜专利网为您找到相关结果3055603个，建议您升级VIP下载更多相关专利

[发明专利]一种野生动物声音识别方法和装置-CN202310903052.9有效
发明人：马国学;冯占林 -专利权人：志成信科（北京）科技有限公司
申请日： 2023-07-21 - 公布日： 2023-09-12 - 主分类号： G10L17/26 文献下载
摘要：本发明提供一种野生动物声音识别方法和装置，通过将不同发声机制的音频特征提取识别划分为不同子任务，每个子任务对应一个多标签分类任务，用于同一发声机制的多种类型动物的声音识别，以解决难以兼顾众多不同类型声音的音频特征的学习和提取的问题，具体通过通用特征提取子模型对输入的音频信号进行全局特征提取，得到该音频信号中尽可能完整、全面的音频特征，利用多个多标签分类子模型对通用特征提取子模型提取的音频特征进行针对性筛选，从全面却欠缺针对性的音频特征中提炼出更具代表性、针对当前多标签分类子模型对应的多种动物类型更具区分性的音频特征，从而提升各个多标签分类子模型的识别精度，进而提升多动物混杂的声音识别精度。
一种野生动物声音识别方法装置

[发明专利]一种哼唱识别方法、设备及介质-CN202310249583.0在审
发明人：苏斌 -专利权人：腾讯音乐娱乐科技（深圳）有限公司
申请日： 2023-03-15 - 公布日： 2023-06-30 - 主分类号： G10L25/69 文献下载
摘要：本申请公开了一种哼唱识别方法、设备及介质，包括：利用特征提取模型提取待识别哼唱音频的第一音频特征；特征提取模型为利用哼唱音频样本以及标签训练得到的模型，标签为与哼唱音频样本匹配的MIDI样本文件对应的音高序列，所述第一音频特征为所述特征提取模型中输出层的前一隐藏层输出的特征；将所述第一音频特征与曲谱库中MIDI文件对应的第二音频特征进行匹配；所述第二音频特征为将所述MIDI文件对应的音高序列输入概率扩散模型得到的音频特征，所述第二音频特征为所述概率扩散模型中输出层的前一隐藏层输出的特征；若匹配到第二音频特征，则基于该第二音频特征确定所述待识别哼唱音频的哼唱识别结果。
一种哼唱识别方法设备介质

[发明专利]基于智能朗读亭的音频生成方法、装置、设备及存储介质-CN202211037429.9有效
发明人：韩国玺;刘可;刘兴好 -专利权人：深圳市星范儿文化科技有限公司
申请日： 2022-08-29 - 公布日： 2022-11-18 - 主分类号： G10L15/02 文献下载
摘要：本发明涉及人工智能领域，公开了一种基于智能朗读亭的音频生成方法、装置、设备及存储介质，用于实现智能朗读亭的音频转换并提高音频的音频质量。所述方法包括：基于智能朗读亭采集目标朗读者的待处理音频，并对待处理音频进行音频特征提取和文本数据转换，得到音频朗读特征和文本朗读数据；将文本朗读数据输入音频转换模型中的特征提取网络进行文本特征提取，得到文本朗读特征；对文本朗读特征与音频朗读特征进行特征整合，得到目标朗读特征；将目标朗读特征输入音频转换模型中的音频生成网络进行音频转换，得到目标朗读音频；对目标朗读音频和目标朗读者进行身份信息绑定，并对目标朗读音频进行关联存储
基于智能朗读音频生成方法装置设备存储介质

[发明专利]数据处理方法、装置、设备、介质及程序产品-CN202310799185.6在审
发明人：黄子龙;范会善;余学武;王炼;周永吉;章铃娜;姜京京;赵新阳;贺文明 -专利权人：中国建设银行股份有限公司;建信金融科技有限责任公司
申请日： 2023-06-30 - 公布日： 2023-09-05 - 主分类号： G10L25/63 文献下载
摘要：本申请公开了一种数据处理方法、装置、设备、介质及程序产品，该方法包括：能够在获取到目标音频数据的情况下，获取人脸关键点预测模型，人脸关键点预测模型至少包括：N个第一特征提取网络、第一残差网络、关键点预测网络，第一特征提取网络包括多头注意力机制；将目标音频参数分别输入至N个第一特征提取网络，通过N个第一特征提取网络得到目标音频参数的N组不同的第一目标音频特征，目标音频参数为从目标音频数据中提取的参数；根据N组第一目标音频特征，利用第一残差网络得到第一关键音频特征；将第一关键音频特征输入至关键点预测网络，通过关键点预测网络，得到人脸关键点。
数据处理方法装置设备介质程序产品

[发明专利]音频指纹特征提取模型的处理方法、装置和计算机设备-CN202311041995.1在审
发明人：袁有根;胡鹏飞 -专利权人：腾讯科技（深圳）有限公司
申请日： 2023-08-18 - 公布日： 2023-09-15 - 主分类号： G10L25/06 文献下载
摘要：本申请涉及一种音频指纹特征提取模型的处理方法、装置和计算机设备。该方法涉及人工智能技术，方法包括：利用音频指纹特征提取模型，得到样本音频指纹特征、正样本音频指纹特征与负样本音频指纹特征；根据样本音频指纹特征与正样本音频指纹特征间的正样本相似度、样本音频指纹特征与负样本音频指纹特征间的负样本相似度，构建对比损失，根据样本音频指纹特征、正样本音频指纹特征分别与分界值间的差异，构建量化损失，根据正样本相似度，构建正样本趋同损失，联合对比损失、量化损失和正样本趋同损失调整模型参数，以得到训练好的音频指纹特征提取模型，提高音频匹配准确性。
音频指纹特征提取模型处理方法装置计算机设备

[发明专利]语音动画生成方法、装置、电子设备和介质-CN202310847814.8有效
发明人：廖家聪;丘国辰;付星辉;孙钟前 -专利权人：腾讯科技（深圳）有限公司
申请日： 2023-07-12 - 公布日： 2023-09-08 - 主分类号： G10L21/10 文献下载
摘要：本申请实施例公开了一种语音动画生成方法、装置、电子设备和介质，可以应用于语音技术等人工智能领域；本申请实施例获取特征提取网络和视素生成网络；通过第一音频数据、以及第一音频数据对应的口型标签，训练特征提取网络，得到训练后的特征提取网络；由训练后的特征提取网络，从第二音频数据中提取音素特征；由视素生成网络，生成音素特征对应的视素特征；通过视素特征、以及第二音频数据对应的音素标签，训练视素生成网络，得到训练后的视素生成网络，以便将训练后的特征提取网络以及训练后的视素生成网络用于生成语音动画。本申请中采用两种不同的音频数据和标签，进行有监督的两阶段训练过程，可以提高生成语音动画的准确性。
语音动画生成方法装置电子设备介质

[发明专利]基于预训练模型的多模态情感识别方法及装置-CN202311083710.0在审
发明人：陶建华 -专利权人：清华大学
申请日： 2023-08-28 - 公布日： 2023-09-19 - 主分类号： G10L25/63 文献下载
摘要：本公开涉及一种基于预训练模型的多模态情感识别方法及装置，所述方法包括：将待识别音频的语音数据和文本数据分别输入语音编码器和文本编码器，将语音编码器的输出输入语音情感特征提取模块，并将语音情感特征输入语音跨模态情感特征提取模块；将文本编码器的输出输入文本情感特征提取模块，并将文本情感特征输入文本跨模态情感特征提取模块；将语音情感特征提取模块、文本情感特征提取模块、语音跨模态情感特征提取模块和文本跨模态情感特征提取模块的输出，输入预先训练好的情感分类模块中，得到待识别音频的情感类别，编码器和多个模块的联合使用，能够提高情感识别准确率。
基于训练模型多模态情感识别方法装置

[发明专利]音频识别方法、声学模型训练方法、装置和存储介质-CN202110696328.1在审
发明人：荣玉军;陈铭;单彦会;刘辉 -专利权人：中移（杭州）信息技术有限公司;中国移动通信集团有限公司
申请日： 2021-06-23 - 公布日： 2022-12-23 - 主分类号： G10L15/06 文献下载
摘要：本发明公开了一种音频识别方法、声学模型训练方法、装置和存储介质，其中，音频识别方法包括：获取待识别的音频数据；对音频数据进行频域特征提取，生成音频数据的频谱图；将频谱图输入到训练好的声学模型中，通过声学模型中的特征提取网络提取频谱图对应的声学特征序列，其中，声学特征序列包括采用不同尺度的卷积核得到的浅层特征和深层特征；通过声学模型中的识别网络，基于声学特征序列进行音频数据的识别。由于声学模型中的特征提取网络提取出的声学特征序列中既包含了音频数据的深层特征，也包含了音频数据的浅层特征，从而使得声学模型中的识别网络能够充分利用音频数据的高低层特征进行语音识别，提高了对语音识别的准确率
音频识别方法声学模型训练装置存储介质

[发明专利]音频分类模型训练方法、装置、设备和存储介质-CN202211570249.7在审
发明人：丁翰林;闫志勇;王永庆;张俊博;王育军 -专利权人：北京小米移动软件有限公司;北京小米松果电子有限公司
申请日： 2022-12-08 - 公布日： 2023-04-25 - 主分类号： G06F18/214 文献下载
摘要：本公开提供了一种音频分类模型训练方法、装置、设备和存储介质。所述音频分类模型训练方法包括：利用弱标签音频数据集对神经网络模型进行训练，得到多标签分类模型；将多标签分类模型中的特征提取网络迁移到用于特定任务的音频分类模型中；其中，特征提取网络用于提取音频数据的嵌入特征；利用特定任务对应的强标签音频数据集训练包含有特征提取网络的音频分类模型。本公开实施例在训练用于特定任务的音频分类模型时，能够降低训练数据的人工标注成本，提高模型训练效率；并且能够保证模型性能。
音频分类模型训练方法装置设备存储介质

[发明专利]一种音频场景识别方法、系统及装置-CN202111064395.8有效
发明人：张鹏远;王猛;颜永红 -专利权人：中国科学院声学研究所
申请日： 2021-09-10 - 公布日： 2023-08-29 - 主分类号： G10L25/18 文献下载
摘要：本发明涉及一种音频场景识别方法，方法包括：获取待识别音频；对待识别音频进行小波特征提取，以确定待识别音频对应的小波特征；将待识别音频对应的小波特征输入至具有残差网络结构的神经网络嵌入特征提取器中，以得到至少一个深度嵌入特征序列；将待识别音频对应的小波特征以及至少一个深度嵌入特征序列一并输入至神经网络分类器中，以确定出待识别音频所对应的音频场景。本发明提取待识别语音数据的小波特征，可以自适应时频信号分析的要求。同时结合具有残差网络结构的神经网络嵌入特征提取器可以在大量数据训练时，保障提取的深度嵌入特征在识别时具有更高的准确率，还可极大提升对短时音频的识别性能。
一种音频场景识别方法系统装置

[发明专利]歌曲语义信息索引方法及其装置、设备、介质、产品-CN202111491602.8在审
发明人：张超钢;肖纯智 -专利权人：广州酷狗计算机科技有限公司
申请日： 2021-12-08 - 公布日： 2022-07-29 - 主分类号： G06F16/61 文献下载
摘要：本申请公开一种歌曲语义信息索引方法及其装置、设备、介质、产品，所述方法包括：对歌曲音频数据中的音频信息进行编码，获得相应的编码信息；采用已训练至收敛状态的特征提取模型的共享网络中的多个卷积块依次对所述编码信息进行多级特征提取，获得提取了所述歌曲音频数据的深层语义信息的中间特征信息；采用所述特征提取模型的全局分支网络对所述中间特征信息提取全局显著特征，获得全局输出特征向量；采用所述特征提取模型的局部分支网络对所述中间特征信息按通道等分割分别提取语义局部特征，获得通道输出特征向量；将所述全局输出特征向量与所述通道特征向量拼接为高维索引向量。本申请能实现对歌曲音频数据的深层语义信息的表示学习。
歌曲语义信息索引方法及其装置设备介质产品

[发明专利]音频特征提取方法及装置-CN201810781268.1有效
发明人：王辰龙 -专利权人：厦门美图之家科技有限公司
申请日： 2018-07-17 - 公布日： 2021-01-26 - 主分类号： G10L25/03 文献下载
摘要：本申请实施例提供一种音频特征提取方法及装置。该方法包括：从目标音频数据中提取低层音频特征；将所述低层音频特征输入到预先训练的深度神经网络模型中，提取所述目标音频数据的高层深度特征；通过sigmoid函数对提取到的高层深度特征进行计算，得到所述目标音频数据的音频深度哈希编码，所述音频深度哈希编码作为所述目标音频数据的音频特征表示。由此，本申请提供的音频特征提取方法及装置能够从整体上理解音频语义信息，兼顾音频之间的关联性和差异性，同时提高了音频分类检索效率，支持海量数据的实时检索。
音频特征提取方法装置

[发明专利]一种基于神经网络的场景自适应助听器音频增强系统-CN202111565538.3有效
发明人：吴志勇;杨玉杰;蔡新宇;陈玉鹏 -专利权人：清华大学深圳国际研究生院;鹏城实验室
申请日： 2021-12-20 - 公布日： 2023-06-23 - 主分类号： H04R25/00 文献下载
摘要：一种基于神经网络的场景自适应助听器音频增强系统和方法，该系统包括基于神经网络的多模态场景特征提取模块和音频增强模块，所述多模态场景特征提取模块对场景进行多模态场景特征提取，所述多模态场景特征包括所述场景的音频和图像特征；所述音频增强模块使用所述多模态场景特征编码对原始音频进行音频增强。本发明将场景信息融合进音频增强系统，从而实现在不同场景下对不同音频进行增强或抑制，提升了用户的使用体验。本发明可以用于帮助助听器在不同场景下实现针对性音频增强，可以降低模型存储需求，提升推理速度和音频增强表现。
一种基于神经网络场景自适应助听器音频增强系统

[发明专利]一种基于音频指纹的电视互动装置及方法-CN201310512978.1无效
发明人：李学生;吴文杰 -专利权人：李学生
申请日： 2013-10-28 - 公布日： 2014-02-05 - 主分类号： H04N21/422 文献下载
摘要：本发明公开了一种基于音频指纹的电视互动装置及方法，该装置包括手机客户单元，电视节目单元。手机客户单元通过广电网络连接电视节目单元。该方法包括电视互动方法和手机互动方法。电视互动方法工作流程为：节目打点，音频解码，音频预处理，音频特征分析，音频特征提取，音频指纹生成，音频指纹入库；手机互动方法工作流程为：音频录音，音频预处理，音频特征分析，音频特征提取，音频指纹生成，音频指纹上传搜索编码器把电视节目中计划互动时间段音频特征提取后放入音频指纹数据库。节目通过电视播出后，手机端软件采集数秒音频样本，提取出特征通过搜索引擎搜索该段样本指纹在音频指纹数据库中位置，通过ID返回至手机。
一种基于音频指纹电视互动装置方法

[发明专利]语种识别方法、计算机设备、存储介质和计算机程序产品-CN202211190072.8在审
发明人：庄晓滨 -专利权人：腾讯音乐娱乐科技（深圳）有限公司
申请日： 2022-09-28 - 公布日： 2023-03-07 - 主分类号： G10L15/00 文献下载
摘要：所述方法包括：将待识别音频输入至预先训练的音频特征提取模型，得到待识别音频的音频特征；预先训练的音频特征提取模型通过不同语种的样本音频训练得到；从预先训练的音频特征提取模型所包含的音频码本中，得到与待识别音频的音频特征对应的目标码本特征；音频码本包括不同语种的码本特征向量；根据目标码本特征中各码本特征向量的分布，得到待识别音频的分布特征向量；将样本音频的分布特征向量中，与待识别音频的分布特征向量之间的距离满足预设距离条件的目标分布特征向量对应的语种类别，确定为待识别音频的语种类别。
语种识别方法计算机设备存储介质程序产品