“音频特征提取”专利关键词查询_检索下载_查询列表_检索列表_行业专利分布_钻瓜专利网

钻瓜专利网为您找到相关结果3055603个，建议您升级VIP下载更多相关专利

[发明专利]人脸三维表面网格生成方法、装置、计算设备及存储介质-CN202310333415.X在审
发明人：卢云鸿;虞钉钉;胡贤良 -专利权人：华院计算技术（上海）股份有限公司
申请日： 2023-03-31 - 公布日： 2023-06-27 - 主分类号： G06T17/20 文献下载
摘要：本发明公开了一种人脸三维表面网格生成方法、装置、计算设备及存储介质，该方法包括：获取目标的人脸三维表面网格模板以及音频驱动信息；对目标的人脸三维表面网格模板进行空间特征提取，得到目标的人脸空间特征；对目标的音频驱动信息进行时序特征提取，得到目标的音频序列特征；基于目标的人脸空间特征以及音频序列特征，对目标的人脸进行三维重建，得到目标人脸的三维表面网格序列。本发明可以提取音频驱动信息的序列特征和人脸三维表面网格的空间特征，有利于提高人脸三维表面网格重建的准确性。
三维表面网格生成方法装置计算设备存储介质

[发明专利]音频信号处理方法、装置、电子设备及存储介质-CN202310127570.6在审
发明人：韩润强;赵昊然;吕新亮;李楠;张晨 -专利权人：北京达佳互联信息技术有限公司
申请日： 2023-02-02 - 公布日： 2023-06-06 - 主分类号： G10L21/0208 文献下载
摘要：本公开关于一种音频信号处理方法、装置、电子设备及存储介质,所述方法包括：在音频信号收录过程中，获取第一音频信号和第二音频信号；第一音频信号包含目标对象的声音信号以及啸叫信号，第二音频信号为与声音信号对应的背景音频信号；根据预设的特征提取算法，分别对第一音频信号和第二音频信号进行特征提取，得到第一音频特征和第二音频特征；将第一音频特征和第二音频特征输入至预先训练的啸叫抑制模型进行处理，得到啸叫抑制处理后的音频特征；根据预设的特征还原算法，对啸叫抑制处理后的音频特征进行还原处理，得到目标音频信号。
音频信号处理方法装置电子设备存储介质

[发明专利]基于语音和文本的情感识别方法和装置、设备、存储介质-CN202310674287.5在审
发明人：张旭龙;王健宗;程宁 -专利权人：平安科技（深圳）有限公司
申请日： 2023-06-07 - 公布日： 2023-08-29 - 主分类号： G06F40/284 文献下载
摘要：该方法包括：获取目标对象的原始音频数据和原始文本数据，对原始音频数据进行音频特征提取得到初步音频特征，对原始文本数据进行文本特征提取得到初步词汇特征，对初步音频特征进行线性变换得到音频特征组，对初步词汇特征进行线性变换得到词汇特征组，根据音频特征组和词汇特征组进行第一、二注意力机制处理得到目标音频特征和目标词汇特征，将目标音频特征和目标词汇特征进行拼接得到音频词汇融合特征，根据音频词汇融合特征进行情感识别得到目标对象的目标情感类别
基于语音文本情感识别方法装置设备存储介质

[发明专利]音频数据处理方法、装置、计算机设备和存储介质-CN202210895424.3有效
发明人：冯鑫 -专利权人：腾讯科技（深圳）有限公司
申请日： 2022-07-28 - 公布日： 2022-11-04 - 主分类号： G10L25/30 文献下载
摘要：本申请涉及一种音频数据处理方法、装置、计算机设备、存储介质和计算机程序产品。该方法包括：将待处理音频数据划分，得到各个子音频；对各个子音频进行时域特征和频域特征提取，得到各个子音频对应的时域特征和频域特征；基于各个子音频对应的中间时域特征和中间频域特征进行特征交互，得到各个子音频对应的目标交互特征；基于目标时域特征、目标频域特征和目标交互特征进行语义特征提取，得到各个子音频对应的音频语义特征，基于音频语义特征进行音乐分类，得到各个子音频对应的音乐可能性；基于音乐可能性确定各个音乐片段的音乐语义特征；基于音乐语义特征进行音乐片段分类，得到同类音乐片段集。
音频数据处理方法装置计算机设备存储介质

[发明专利]多风格音频合成方法、装置、设备及存储介质-CN202011385987.5在审
发明人：梁爽;陈闽川;马骏;王少军 -专利权人：平安科技（深圳）有限公司
申请日： 2020-12-02 - 公布日： 2021-03-26 - 主分类号： G10L13/02 文献下载
摘要：本发明涉及人工智能领域，公开了一种多风格音频合成方法、装置、设备及存储介质。该方法包括：获取待处理的文本数据和单风格的第一梅尔谱；将所述第一梅尔谱输入预置风格提取网络进行特征提取，得到第一风格特征；将所述文本数据输入预置梅尔谱生成网络中的编码器进行特征提取以及将提取到的第一文本特征与所述第一风格特征进行拼接，得到第一融合特征；将所述第一融合特征输入预置梅尔谱生成网络中的解码器进行特征转换，得到第二梅尔谱；将所述第二梅尔谱输入预置声码器进行音频生成，得到多风格音频。本发明利用风格特征作为声码器的条件特征，能够生成多风格的音频。
风格音频合成方法装置设备存储介质

[发明专利]歌曲检测方法、装置、设备及可读存储介质-CN202310932072.9在审
发明人：兰翔;曾锐鸿;马金龙;熊佳;焦南凯;盘子圣;王伟喆;黎子骏;黄祥康;吴文亮;邓其春;张政统;谢睿;徐志坚;陈光尧 -专利权人：广州趣研网络科技有限公司
申请日： 2023-07-26 - 公布日： 2023-09-19 - 主分类号： H04N21/2187 文献下载
摘要：本申请公开了一种歌曲检测方法、装置、设备及可读存储介质，该方法可以获取主播端上传的包含音频流数据的音频文件；判断所述音频文件中是否还包含歌曲信息；若是，则从所述音频文件中提取所述歌曲信息，并根据所述歌曲信息确定所述音频文件对应的歌曲标识，所述歌曲标识用于确定所述音频文件是否包含违禁歌曲；若否，则将所述音频文件中的音频流数据输入至预置的特征提取模型，利用所述特征提取模型提取所述音频流数据中歌曲音频的频谱图，并从所述频谱图中提取音频指纹，根据所述音频指纹确定与所述音频文件匹配的歌曲标识。可见，本申请提出了一种歌曲检测的流程，可以在保证审核的准确度的同时，提高音频审核的效率。
歌曲检测方法装置设备可读存储介质

[发明专利]说话人验证方法、装置以及存储介质-CN202210240088.9在审
发明人：胡庆焱;王博;欧阳鹏 -专利权人：江苏清微智能科技有限公司
申请日： 2022-03-12 - 公布日： 2022-08-02 - 主分类号： G10L17/02 文献下载
摘要：其中，说话人验证方法，用于实现移动端说话人的验证，包括：从预先设置的声音采集设备接收采集的说话人的音频数据，其中音频数据为用户的特定命令发声；将音频数据进行数据扩充，确定有效音频段；通过预先设置的特征提取算法，对有效音频段进行特征提取，确定音频特征；以及通过预先训练的声纹模型，将音频特征与预先注册用户的声音特征进行匹配，在音频特征与声音特征相匹配的情况下，确定说话人和用户为同一人，其中声纹模型为基于长短期记忆和全局平均信息融和技术的模型
说话验证方法装置以及存储介质

[发明专利]一种基于脑电波的结巴检测方法-CN201810254915.3在审
发明人：蒋阳波 -专利权人：校宝在线（杭州）科技股份有限公司
申请日： 2018-03-26 - 公布日： 2018-11-06 - 主分类号： A61B5/0476 文献下载
摘要：它包括训练阶段和评测阶段，所述的训练阶段指的是：运用脑电波信号，利用深度学习技术来训练音频流利度、重复性的特征提取模型，根据特征提取模型提取特征，最终训练得到结巴评测模型；所述的评测阶段指的是：脑电波传感器获取脑电波信号，提取音频流利度、重复性的特征，利用结巴评测模型对音频进行结巴检测。
评测脑电波特征提取模型脑电波信号训练阶段流利度检测脑电波传感器信号处理技术脑电波检测机器学习提取特征语音测试学习

[发明专利]声纹识别方法、装置、计算机设备和计算机可读存储介质-CN201811261459.1在审
发明人：徐凌智;彭俊清;王健宗;肖京 -专利权人：平安科技（深圳）有限公司
申请日： 2018-10-26 - 公布日： 2019-02-15 - 主分类号： G10L17/02 文献下载
摘要：本申请揭示了一种声纹识别方法、装置、计算机设备和计算机可读存储介质，其中方法包括：解析待识别声纹特征的语音文件的音频格式；根据解析出的音频格式，调用对应音频格式的解析方法解析语音文件的原始采样数据；对原始采样数据进行重新采样和编码，得到预设音频格式的语音数据；将语音数据输入到预设的声纹模型中进行运算，得到对应语音数据的声纹特征；根据声纹特征判断出语音文件中说话人的身份，或者验证语音文件中的说话人是否为指定的人。本申请在声纹特征提取之前先进行音频格式的统一，然后进行声纹特征提取，可以快速地获取到声纹特征；在对声纹提取过程中，因为音频格式统一，所以声纹模型提取声纹特征时，准确性更高。
音频格式声纹特征语音文件解析计算机可读存储介质声纹特征提取原始采样数据计算机设备声纹模型声纹识别语音数据预设语音数据输入重新采样声纹调用申请运算验证统一身份

[发明专利]一种基于机动车音频信号的交通状态判别系统-CN201610088060.2有效
发明人：蔡铭;姚雪娇 -专利权人：中山大学
申请日： 2016-02-16 - 公布日： 2018-07-03 - 主分类号： G08G1/01 文献下载
摘要：本发明提供一种基于机动车音频信号的交通状态判别系统。系统包括音频信号采集、音频信号处理、特征提取和交通状态判别四个模块。系统基于机动车音频信号的交通状态判别方法如下：音频信号采集模块针对道路不同的交通状况音频信息进行采集，通过音频信号处理模块对采集到的音频信号进行时域分析与频域分析，再经特征提取模块进行特征属性的选择、提取，交通状态判别模块利用支持向量机分类器对特征数据进行训练和识别，建立判别模型并最终输出交通状态类型。
交通状态判别音频信号交通状态判别系统机动车音频信号采集模块音频信号处理模块支持向量机分类器特征提取模块音频信号采集音频信号处理采集交通状况交通状态判别模型频域分析时域分析特征属性特征数据特征提取音频信息输出应用

[发明专利]基于音频和图像驱动的用于生成人脸说话视频的训练方法-CN202211248353.4有效
发明人：储琪;刘斌;俞能海;盛典墨 -专利权人：中国科学技术大学
申请日： 2022-10-12 - 公布日： 2023-03-24 - 主分类号： G06T13/20 文献下载
摘要：本发明公开了一种基于音频和图像驱动的用于生成人脸说话视频的训练方法。该方法包括：获取预设帧数的视频样本，并构建人脸说话视频生成模型；利用音频特征提取器对视频样本的音频进行特征提取，得到音频特征向量；利用图像编码器对视频样本进行投影处理，得到视频图像的扩展潜在向量；利用音频‑表情映射网络处理音频特征向量和扩展潜在向量，得到加权的扩展潜在向量；利用生成器处理加权的扩展潜在向量，得到生成视频。本发明同时还提供了一种基于音频和图像驱动的人类说话视频的生成方法。
基于音频图像驱动用于生成说话视频训练方法

[发明专利]一种基于大规模养殖场厂哺乳动物异常声音监测方法-CN201811589296.X有效
发明人：苍岩;王文静;乔玉龙;陈春雨;何恒翔;熊梓奥 -专利权人：哈尔滨工程大学
申请日： 2018-12-25 - 公布日： 2021-12-07 - 主分类号： G10L17/26 文献下载
摘要：本发明主要包括以下几个部分：1.谱图分析：对采集来的音频进行分析，确定声音识别方案的可行性；2.音频降噪：对音频降噪处理，提高声音识别的准确性；3.无监督音频分割：简化音频处理过程，无需手动切分得到包含所需声音事件的音频段；4.音频特征提取：采用的特征提取技术为Mel频率倒谱系数；5.无监督分类：采用无监督分类方法为K均值算法。本发明通过采用无监督的音频分割技术和K均值的分类方法，结合频谱、时频谱分析技术，音频降噪技术，Mel频率倒谱系数特征提取技术，实现了对大规模养殖场动物无监督的声音识别。
一种基于大规模养殖场哺乳动物异常声音监测方法

[发明专利]图像生成方法以及相关设备-CN202210477320.0在审
发明人：朱飞达;朱俊伟;储文青;邰颖;汪铖杰 -专利权人：腾讯科技（深圳）有限公司
申请日： 2022-05-04 - 公布日： 2022-09-30 - 主分类号： G06V40/16 文献下载
摘要：本申请公开了一种图像生成方法以及相关设备，相关实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景；可以获取目标对象的原始面部图像帧和待生成的目标面部图像帧的音频驱动信息；对原始面部图像帧进行空间特征提取，得到原始面部空间特征；对音频驱动信息进行时序特征提取，得到面部局部姿态特征；基于原始面部空间特征和面部局部姿态特征对目标对象进行面部重建处理，生成目标面部图像帧。本申请可以通过对音频驱动信息进行特征提取，捕捉到目标对象部分的面部姿态细节信息，进而基于捕捉到的信息来对原始面部图像帧进行面部调整，从而获取音频驱动信息对应的目标面部图像帧，这样有利于提高目标面部图像帧的生成效率和准确性
图像生成方法以及相关设备

[发明专利]搜索音频数据的方法和装置-CN201811100175.4有效
发明人：黄安麒;刘彦彬;李深远;董治;代玥;范恒远;陈莉 -专利权人：腾讯音乐娱乐科技（深圳）有限公司
申请日： 2018-09-20 - 公布日： 2022-04-08 - 主分类号： G06F16/63 文献下载
摘要：本发明提供了一种搜索音频数据的方法和装置，属于互联网技术领域。将多个音频数据的相关联图像数据分别输入指定的特征提取模型，得到每个音频数据的相关联图像数据对应的特征信息，进行存储，其中，所述特征信息包括音频类型信息和图像特征信息；获取目标图像数据；将所述目标图像数据输入所述特征提取模型，得到所述目标图像数据对应的目标特征信息；确定所述目标特征信息分别与存储的每个音频数据对应的特征信息的相似度；基于每个音频数据对应的相似度，在所述多个音频数据中选取至少一个音频数据，作为所述目标图像数据对应的搜索结果采用本发明，可以提高搜索音频数据的灵活性。
搜索音频数据方法装置

[发明专利]一种移动端虚拟形象实时语音驱动表情方法及装置-CN202211405039.2在审
发明人：黄仰光 -专利权人：深圳市即构科技有限公司
申请日： 2022-11-10 - 公布日： 2023-09-26 - 主分类号： G10L25/03 文献下载
摘要：本申请提出一种移动端虚拟形象实时语音驱动表情方法，包括S1：移动端采集用户的实时语音，并将实时语音组合形成音频数据包；S2：对音频数据包中的音频数据进行MFCC特征提取，将所述音频数据采用加窗和滑窗重组操作，得到特征提取后的音频数据；S3：检测音频数据是否是静音场景，若是，则返回步骤S1；若不是，则进行下一步骤；S4：将所述音频数据输入AI声音表情模型中，经过所述AI声音表情模型推理后，输出与用户嘴形相关的表情系数本申请的在特征提取时采用特征滑窗和重组机制，使模型的输出更加稳定，模型采用轻量化设计，满足移动端计算量需求。
一种移动虚拟形象实时语音驱动表情方法装置

首页
«上一页
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
下一页»
尾页
共 100000 条