“音频特征提取”专利关键词查询_检索下载_查询列表_检索列表_行业专利分布_钻瓜专利网

钻瓜专利网为您找到相关结果3055603个，建议您升级VIP下载更多相关专利

[发明专利]一种基于时间序列算法的睡眠呼吸暂停事件识别系统-CN202310438705.0在审
发明人：邱禧荷;李斌;谭晓宇;方志军;沈骏;黄晶晶 -专利权人：上海工程技术大学
申请日： 2023-04-21 - 公布日： 2023-06-27 - 主分类号： G10L25/66 文献下载
摘要：本发明涉及一种基于时间序列算法的睡眠呼吸暂停事件识别系统，包括音频采集模块，用于采集用户夜间睡眠音频；音频信号特征提取模块，采用MFCC对提取到的用户夜间睡眠音频进行特征提取，得到MFCC特征；特征标注模块，用于对MFCC特征进行标注；训练集构建模块，基于标注好的MFCC特征，构建时间序列分类算法模型的训练集；统计分类模块，基于时间序列分类算法模型的训练集训练线性分类器，分类得到用户夜间睡眠音频中呼吸暂停事件的数目
一种基于时间序列算法睡眠呼吸暂停事件识别系统

[发明专利]声学模型训练方法、系统、移动终端及存储介质-CN202010401369.9有效
发明人：徐敏;肖龙源;李稀敏;蔡振华;刘晓葳;谭玉坤 -专利权人：厦门快商通科技股份有限公司
申请日： 2020-05-13 - 公布日： 2023-01-03 - 主分类号： G10L15/14 文献下载
摘要：本发明提供了一种声学模型训练方法、系统、移动终端及存储介质，该方法包括：对第一音频数据和第二音频数据构建音素集；构建第一音频数据的发音特征与音素集中对应音素之间的映射关系，并根据第一音频数据训练发音特征提取器；根据发音特征提取器提取第二音频数据的发音特征，并将第二音频数据的发音特征和语音特征进行特征拼接，得到声学特征；根据声学特征训练GMM‑HMM语音识别模型，得到第二音频数据中每一帧语音信息与对应音素之间的第一对齐关系本发明通过将第二音频数据的发音特征和语音特征进行特征拼接得到声学特征的设计，有效的提高了声学特征的鲁棒性，进而提高了对声学模型的模型训练的准确性。
声学模型训练方法系统移动终端存储介质

[发明专利]多媒体数据的特征提取方法、多媒体数据检索方法及装置-CN202111404192.9在审
发明人：王佑芯;孔伟杰;蒋杰;田上萱;王红法;刘威 -专利权人：腾讯科技（深圳）有限公司
申请日： 2021-11-24 - 公布日： 2022-04-12 - 主分类号： G06F16/43 文献下载
摘要：本申请公开了一种多媒体数据的特征提取方法、多媒体数据检索方法及装置，其中多媒体数据的特征提取方法通过对目标多媒体数据进行图像特征提取，得到目标多媒体数据的图像特征序列；对目标多媒体数据中的音频数据进行语音识别，并对语音识别结果进行文本特征提取，得到目标多媒体数据的文本特征序列；将图像特征序列和文本特征序列进行融合，得到融合特征序列；对融合特征序列进行自注意力计算，得到目标特征序列；根据目标特征序列确定目标多媒体数据的目标特征该方法可以提高对多媒体数据进行特征提取的准确性。
多媒体数据特征提取方法检索装置

[发明专利]演唱对象识别方法和装置、电子设备及存储介质-CN202210906248.9在审
发明人：张旭龙;王健宗 -专利权人：平安科技（深圳）有限公司
申请日： 2022-07-29 - 公布日： 2022-10-25 - 主分类号： G06F16/65 文献下载
摘要：该方法包括：获取目标演唱对象的目标音频数据；将目标音频数据输入人物识别模型；人物识别模型包括空洞卷积网络和卷积分类网络；通过空洞卷积网络对目标音频数据进行特征提取，得到音频时序特征；通过空洞卷积网络对音频时序特征进行激活处理，得到初始音频特征向量；对多个初始音频特征向量进行特征融合，得到融合音频特征向量；通过卷积分类网络对融合音频特征向量进行特征提取，得到目标音频特征向量；通过卷积分类网络对目标音频特征向量进行预测处理，得到目标演唱对象的目标身份标签
演唱对象识别方法装置电子设备存储介质

[发明专利]一种视听伪造检测方法及装置-CN202210062374.0有效
发明人：赫然;黄怀波;刘晨雨;李佳;段俊贤 -专利权人：中国科学院自动化研究所
申请日： 2022-01-19 - 公布日： 2023-05-09 - 主分类号： G06V40/16 文献下载
摘要：本发明提供一种视听伪造检测方法及装置，该方法包括：获取待测视频数据；其中，待测视频数据包括至少两个视频帧，每个视频帧均包括至少一组由人脸图像和音频数据组成的视听对；将各视听对输入至训练好的双流网络，得到待测视频数据的伪造检测结果；其中，双流网络包括图像网络分支、音频网络分支和预测网络；图像网络分支用于提取人脸图像的面部关键点特征，并基于面部关键点特征提取人脸图像的帧间一致性特征；音频网络分支用于提取音频数据的音频特征，并基于音频特征提取音频数据的时间一致性特征；预测网络基于帧间一致性特征和时间一致性特征获取待测视频数据的伪造检测结果。
一种视听伪造检测方法装置

[发明专利]声纹特征提取方法、说话人识别方法、模型训练方法及装置-CN202310571244.4在审
发明人：陈亚峰;郑斯奇;王绘;程路遥 -专利权人：阿里巴巴（中国）有限公司
申请日： 2023-05-18 - 公布日： 2023-09-05 - 主分类号： G10L17/02 文献下载
摘要：本申请实施例公开了一种声纹特征提取方法、说话人识别方法、模型训练方法及装置。主要技术方案包括：获取包含语音的音频段；提取音频段的频谱特征；将音频段的频谱特征输入声纹提取模型，获取声纹提取模型输出的声纹特征；其中，声纹提取模型包括卷积神经网络层和池化全连接层；卷积神经网络层包括一个以上串连的基础模块，基础模块对输入该基础模块的特征进行不同通道维度的特征提取和融合，得到该基础模块输出的特征；利用最后一个基础模块输出的特征得到卷积神经网络层输出的特征；池化全连接层对卷积神经网络层输出的特征进行池化和全连接处理，得到声纹特征。通过本申请能够提升提取的声纹特征的准确性，提高声纹提取模型的泛化性能。
声纹特征提取方法说话识别模型训练装置

[发明专利]一种基于音频生成视频的方法和装置-CN202010728311.5有效
发明人：李甲;郭鑫;赵一凡;石鼎丰;赵沁平 -专利权人：北京航空航天大学
申请日： 2020-07-24 - 公布日： 2021-07-23 - 主分类号： H04N21/233 文献下载
摘要：本公开的实施例公开了一种基于音频生成视频方法和装置。该方法的一具体实施方式包括：获取舞蹈视频和音乐片段；确定音频的音频点，得到多个影像点；利用影像得到多个人体关键点集和影像片段；利用每个音频点和影像点确定训练集和舞蹈动作库；确定音频点的特征向量和影像片段的特征向量，得到训练后的特征提取器；利用训练后的特征提取器，提取音乐片段特征；确定音乐片段特征和人体关键点特征距离，得到影像片段并合成视频。
一种基于音频生成视频方法装置

[发明专利]事件检测模型训练方法、系统、电子设备和存储介质-CN202111681998.2有效
发明人：俞凯;吴梦玥;李光伟;徐薛楠 -专利权人：思必驰科技股份有限公司
申请日： 2021-12-31 - 公布日： 2023-02-21 - 主分类号： H04N21/43 文献下载
摘要：本发明公开事件检测模型训练方法、事件检测系统、电子设备和存储介质，其中，一种事件检测模型训练方法，其中，对音频数据集额外进行视频标注，所述方法包括：使用音频处理模型对所述音频数据集中的音频进行特征提取得到音频特征；使用视频处理模型对所述音频数据集中的视频进行特征提取得到视频特征；采用以attention为基础的模型对所述音频特征和所述视频特征进行整合，分别独立输出音频事件预测和视频事件预测。本申请实施例针对已有的音频数据集进行改进，额外标注了视频弱标签，从而无需从头选用新的数据。同时，采用以attention为基础的模型结构对两模态进行有效融合，应对音视频不匹配的问题。
事件检测模型训练方法系统电子设备存储介质

[发明专利]音频修复方法、装置、计算机设备和存储介质-CN202310672388.9在审
发明人：徐雪;张驰;杨洁琼;江文乐 -专利权人：中国工商银行股份有限公司
申请日： 2023-06-08 - 公布日： 2023-08-22 - 主分类号： G10L21/007 文献下载
摘要：本申请涉及一种音频修复方法、装置、计算机设备、存储介质和计算机程序产品，可用于音频处理技术领域，也可用于金融科技领域或其他相关领域。该方法包括：获取金融系统的待修复音频的原始频谱图；对原始频谱图进行特征提取处理，得到待修复音频的原始频谱特征图，对原始频谱特征图进行不同倍数的下采样处理，得到待修复音频的多个尺度的频谱特征图；对各个尺度的频谱特征图进行特征提取处理，得到各个尺度的目标频谱特征图；根据待修复音频和各个尺度的目标频谱特征图，进行音频重建处理，得到待修复音频的目标频谱图；对目标频谱图进行音频转化，得到待修复音频的修复音频。采用本方法，能够提高音频修复效果。
音频修复方法装置计算机设备存储介质

[发明专利]多模态语音情感识别方法、装置、设备及存储介质-CN202310715208.0在审
发明人：张旭龙;王健宗;程宁;赵嘉豪 -专利权人：平安科技（深圳）有限公司
申请日： 2023-06-15 - 公布日： 2023-08-22 - 主分类号： G10L25/63 文献下载
摘要：本发明公开了一种多模态语音情感识别方法，该方法包括获取至少一个音频数据；对音频数据的音频内容进行音频特征提取，得到梅尔频谱图、过零率特征图以及频谱质心特征图；基于梅尔频谱图、过零率特征图以及频谱质心特征图，确定语调特征；对音频数据进行语音识别，得到文本内容，并对文本内容进行文本特征提取，得到内容特征；将语调特征和内容特征进行拼接，得到音频拼接特征，并通过音频拼接特征确定情感识别结果。本发明通过语调特征和内容特征对音频数据进行情感识别，实现了多模态对音频数据的情感识别，提升了金融或保险等行业中情感识别的准确性。以及在面对复杂语音数据时，也可以准确识别语音中的情感。
多模态语音情感识别方法装置设备存储介质

[发明专利]音乐情感识别方法和系统、电子设备、存储介质-CN202310572293.X在审
发明人：张旭龙;王健宗;茹港徽 -专利权人：平安科技（深圳）有限公司
申请日： 2023-05-19 - 公布日： 2023-07-25 - 主分类号： G10L25/63 文献下载
摘要：该方法包括：获取包括样本音频文件和初始情感标签的音频样本集；将样本音频文件输入至音频转录模型得到音频符号乐谱；将样本音频文件和音频符号乐谱输入至初始识别模型；通过音频识别子模型对样本音频文件进行音频特征提取得到音频域特征；通过符号识别子模型对音频符号乐谱进行符号特征提取得到符号域特征；根据音频域特征和符号域特征确定样本音频文件的预测情感标签；根据预测情感标签和初始情感标签确定音乐情感识别模型；将待识别的目标音频文件输入音乐情感识别模型得到情感识别结果
音乐情感识别方法系统电子设备存储介质

[发明专利]一种模型训练、音频降噪方法、装置、设备及存储介质-CN202210453491.X在审
发明人：赵情恩 -专利权人：北京百度网讯科技有限公司
申请日： 2022-04-27 - 公布日： 2022-07-22 - 主分类号： G10L21/02 文献下载
摘要：本公开提供了一种模型训练、音频降噪方法、装置、设备及存储介质，涉及数据处理技术领域，尤其涉及人工智能技术领域。具体实现方案为：获得第一样本音频特征、第二样本音频特征和样本图像；将第二样本音频特征输入音频降噪模型中的音频特征提取子网络，得到深层音频特征，将样本图像输入音频降噪模型中的图像特征提取子网络，得到样本图像特征；将深层音频特征和样本图像特征输入音频降噪模型中的联合子网络重建音频特征和图像；基于重建的音频特征与第一样本音频特征间的差异、及重建的图像与样本图像间的差异，获得训练损失；基于训练损失，对音频降噪模型进行训练应用本公开实施例提供的方案，能够训练得到对音频进行降噪处理的模型。
一种模型训练音频方法装置设备存储介质

[发明专利]基于声重组特征网络的水面航行器声信号基频提取方法-CN202310859687.3在审
发明人：何鸣;王永乐;董浩亮;王金满;王红滨;周连科;王念滨;孙彧 -专利权人：哈尔滨工程大学;江苏科技大学
申请日： 2023-07-13 - 公布日： 2023-10-20 - 主分类号： G10L25/51 文献下载
摘要：基于声重组特征网络的水面航行器声信号基频提取方法，属于基频提取领域。本发明解决了现有基频提取任务的声信号特征提取方法存在处理方式复杂、鲁棒性差的问题。本发明将待进行基频提取的声信号按照LHS算法产生的最小帧长切割成等长的音频段；采用LHS算法对所述等长的音频段的基频进行标记；采用声重组特征网络提取音频段的声信号的基频特征；采用基频提取网络利用基频特征对对应的音频段进行基频提取本发明适用于基频提取。
基于重组特征网络水面航行信号基频提取方法

[发明专利]语种识别方法、装置、服务器及存储介质-CN202011033457.4在审
发明人：张大威;姜涛;王晓瑞;王俊;李岩 -专利权人：北京达佳互联信息技术有限公司
申请日： 2020-09-27 - 公布日： 2021-01-05 - 主分类号： G10L15/00 文献下载
摘要：本公开关于一种语种识别方法、装置、服务器及存储介质，该方法包括：获取待检测音频信号中的声学特征；将声学特征输入预先训练的声纹特征提取网络模型中，得到预先训练的声纹特征提取网络模型中目标神经网络层输出的特征，作为待检测音频信号中的声纹特征；根据待检测音频信号中的声纹特征以及各个预设语种音频信号中的声纹特征，确定待检测音频信号与各个预设语种音频信号之间的对数似然比值；根据各个对数似然比值，确定待检测音频信号与各个预设语种音频信号之间的特征相似度；根据特征相似度，从各个预设语种音频信号对应的语种信息中，确定待检测音频信号的语种信息。
语种识别方法装置服务器存储介质

[发明专利]降噪方法、装置、设备及存储介质-CN202211188872.6在审
发明人：邓鑫 -专利权人：珠海市魅族科技有限公司
申请日： 2022-09-28 - 公布日： 2023-02-03 - 主分类号： G10K11/178 文献下载
摘要：该方法通过从预设的控制终端读取降噪规划信息，其中，降噪规划信息为用户通过控制终端编辑得到；根据降噪规划信息确定降噪模式，并基于降噪模式从控制终端读取特征音频；基于降噪模式确定特征提取方式，并根据特征提取方式从特征音频中提取降噪特征；通过预设的声音传感器采集声音信号，并基于降噪特征和声音信号生成降噪信号；通过降噪信号控制预设的扬声器进行播放，以进行降噪；从而解决了现有技术中无法基于特征音频进行有效降噪的问题。
方法装置设备存储介质