“音频特征提取”专利关键词查询_检索下载_查询列表_检索列表_行业专利分布_钻瓜专利网

钻瓜专利网为您找到相关结果3055603个，建议您升级VIP下载更多相关专利

[发明专利]声音识别方法、装置、设备及存储介质-CN202111330096.4在审
发明人：眭一帆 -专利权人：北京奇虎科技有限公司
申请日： 2021-11-10 - 公布日： 2023-05-12 - 主分类号： G10L15/02 文献下载
摘要：本发明涉及互联网技术领域，公开了一种声音识别方法、装置、设备及存储介质，所述方法包括：对待验证声音数据进行特征提取，获得待验证音频特征信息；对多个标准声音数据进行特征提取，获得多个标准音频特征信息；根据待验证音频特征信息从多个标准音频特征信息中选取目标音频特征信息；根据目标音频特征信息确定待验证声音数据对应的用户身份信息。由于现有技术中，需要人工将待验证声音数据与多个预存声音数据一一比对，进而识别用户身份信息，而本发明中对待验证声音数据及多个标准声音数据分别进行特征提取，之后根据获得的待验证音频特征信息和多个标准音频特征信息确定用户身份信息，实现了精准获取声音识别结果，提高了音频验证效率。
声音识别方法装置设备存储介质

[发明专利]一种音频场景分类方法、装置、电子设备和存储介质-CN202110304711.8有效
发明人：白雪 -专利权人：北京达佳互联信息技术有限公司
申请日： 2021-03-23 - 公布日： 2021-06-22 - 主分类号： G10L25/51 文献下载
摘要：本公开关于一种音频场景分类方法、装置、电子设备和存储介质获取音频信息，对音频信息进行声学特征提取，得到第一声学特征信息和第二声学特征信息，并将第一声学特征信息输入到音频场景特征提取模型中进行场景特征提取，得到场景特征信息，将第二声学特征信息输入到声学场景分割模型中进行声学场景分析，得到音频场景信息。将场景特征信息和音频场景信息输入到注意力模型中进行注意力学习，得到场景特征加权信息，再将场景特征加权信息输入到场景分类网络中进行分类，得到场景分类结果。该方法可以获取音频信息中有区分性的音频片段，从而提高音频场景分类的准确性和有效性。
一种音频场景分类方法装置电子设备存储介质

[发明专利]视频特征提取方法、装置及电子设备-CN202210771422.3在审
发明人：罗冠;魏久桐;李兵;胡卫明 -专利权人：中国科学院自动化研究所
申请日： 2022-06-30 - 公布日： 2022-11-08 - 主分类号： G06V20/40 文献下载
摘要：本发明提供一种视频特征提取方法、装置及电子设备，涉及视频处理技术领域，可以应用于视频特征提取的场景。该视频特征提取方法包括：获取视频图像和视频图像对应的音频数据；将音频数据转换为声谱图，得到声谱图像；将视频图像和声谱图像输入至视频特征提取模型，得到视频特征提取模型输出的视频特征；其中，视频特征提取模型是基于样本视频数据和对偶式对比学习模型对基础神经网络模型进行预训练得到的，对偶式对比学习模型用于对样本视频数据经基础神经网络模型处理后输出的第一多模态样本特征矩阵分别进行行维度和列维度上的对比学习。本发明提供的技术方案可以提高视频特征提取的准确性和泛化性。
视频特征提取方法装置电子设备

[发明专利]语义文本的生成方法、装置、电子设备及存储介质-CN202211128827.1有效
发明人：王俊;张大威;邓峰;王晓瑞 -专利权人：北京达佳互联信息技术有限公司
申请日： 2022-09-16 - 公布日： 2023-01-20 - 主分类号： G10L15/18 文献下载
摘要：本公开提供了一种语义文本的生成方法、装置、电子设备及存储介质，属于音频处理技术领域。该方法包括：获取音频信号的梅尔谱图；通过语义识别模型中的音频特征提取网络，基于时空注意力机制和通道注意力机制，对所述梅尔谱图进行特征提取，得到音频特征矩阵；通过所述语义识别模型中的文本生成网络，基于所述音频特征矩阵上述方案不仅基于时空注意力机制来提取音频信号的特征，还能够基于通道注意力机制来提取音频信号的特征，使得提取到的音频特征矩阵能够准确表示音频信号的特征，从而能够提高语义文本的准确率，进而更加准确表达音频信号的语义
语义文本生成方法装置电子设备存储介质

[发明专利]一种基于变异受限玻尔兹曼机的去噪音频特征提取方法-CN201810996275.3有效
发明人：龙华;杨明亮;宋耀莲 -专利权人：昆明理工大学
申请日： 2018-08-29 - 公布日： 2023-05-12 - 主分类号： G10L25/03 文献下载
摘要：本发明涉及一种基于变异受限玻尔兹曼机的去噪音频特征提取算法，属于音频信号处理技术领域。本发明利用玻尔兹曼机强大的无监督学习能力对采集的音频信号从高维可视层的输入值映射到低维隐藏层，并利用少量的标签信息利用音频特征信号出现的概率大于噪声特征信号的概率实现对低维特征数据进行聚类分组，从而达到对音频信号去噪特征提取的目的本发明抗干扰能力强，对处理的音频信号长度要求低，算法简单，并且一次性完成了对音频信号的去噪、特征提取、降维的处理，编程易于实现，对于实际的音频信号处理也具有强大的稳定性和鲁棒性。
一种基于变异受限玻尔兹曼机噪音特征提取方法

[发明专利]语音验证方法、语音验证模型的训练方法及相关装置-CN202210444072.X在审
发明人：陈庭威;黄景标;方瑞东;林聚财;刘克柱;毛亚朋;黄威震;殷俊 -专利权人：浙江大华技术股份有限公司
申请日： 2022-04-25 - 公布日： 2022-09-16 - 主分类号： G10L17/02 文献下载
摘要：本申请公开了一种语音验证方法、语音验证模型的训练方法及相关装置，其中，语音验证方法包括：对测试语音进行第一特征提取，得到测试语音的音频特征，并对目标对象发出的参考语音进行第一特征提取，得到参考语音的音频特征；其中，不同对象所发出语音的音频特征不同；以及对测试语音进行第二特征提取，得到测试语音的鉴别特征；其中，鉴别特征包含用于鉴别发出测试语音的对象是否为活体的特征信息；再基于测试语音的音频特征、参考语音的音频特征和鉴别特征
语音验证方法模型训练相关装置

[发明专利]音频处理方法、装置、存储介质及电子设备-CN202010684888.0在审
发明人：杨伟明 -专利权人：腾讯音乐娱乐科技（深圳）有限公司
申请日： 2020-07-16 - 公布日： 2020-10-30 - 主分类号： G06F16/65 文献下载
摘要：本申请公开了一种音频处理方法、装置、存储介质及电子设备。该音频处理方法包括：获取音频文件；将该音频文件输入至预先训练好的特征提取模型，以使该特征提取模型根据该音频文件的父类别将该音频文件划分为多个音频块以及提取每一音频块的音频特征；根据每一音频块的音频特征，利用训练好的预设分类模型对每一音频块进行分类，得到每一音频块的分类结果；根据各音频块的分类结果，确定该音频文件的子类别。本申请可以提高电子设备对音频文件进行分类的灵活性。
音频处理方法装置存储介质电子设备

[发明专利]一种基于改进MFCC的非语音类音频特征提取方法-CN202210256684.6在审
发明人：姜琦;董琦;李红;冯庆胜;丁伟 -专利权人：大连交通大学
申请日： 2022-03-16 - 公布日： 2022-06-10 - 主分类号： G10L25/24 文献下载
摘要：本发明涉及音频特征提取技术领域，具体公开了一种基于改进MFCC的非语音类音频特征提取方法，包括如下步骤：采集声音信号并对采集到的声音信号进行预处理；将预处理后的声音信号进行MFCC特征提取；将预处理后的声音信号进行EMD分解获得IMF分量，提取IMF分量的时域特征向量和频域特征向量；将MFCC系数做一阶差分与二阶差分，得到组成MFCC的动态特征向量；将计算出的MFCC特征向量、时域特征向量、频域特征向量和MFCC动态特征向量进行特征融合，获得改进后的多尺度MFCC特征向量。本发明可以有效提取音频信号的高频部分，且声音信号特征信息更加丰富、全面，此外，本发明的方法不仅可以处理语音类音频，也可以处理非语音类型的音频如机械声等的音频信号。
一种基于改进 mfcc 语音音频特征提取方法

[发明专利]利用移动终端进行电视购物的方法及系统-CN201310121333.5在审
发明人：蔡洪滨;何昕;陈学超;唐卫东 -专利权人：上海合合信息科技发展有限公司
申请日： 2013-04-09 - 公布日： 2013-06-12 - 主分类号： G06Q30/06 文献下载
摘要：根据本发明所述系统至少包括：音频获取单元，用于基于所检测到的用户摇晃所述移动终端的动作来录制音频节段；音频特征提取单元，用于从所述音频获取单元所录制的音频节段中提取音频特征信息；音频匹配处理单元，用于将所述音频特征提取单元所提取的音频特征信息分别与预设的多个广告的音频特征信息进行匹配
利用移动终端进行电视购物方法系统

[发明专利]歌曲索引方法及其装置、设备、介质、产品-CN202111494040.2在审
发明人：肖纯智;张超钢 -专利权人：广州酷狗计算机科技有限公司
申请日： 2021-12-08 - 公布日： 2022-08-02 - 主分类号： G06F16/61 文献下载
摘要：本申请公开一种歌曲索引方法及其装置、设备、介质、产品，所述方法包括：对歌曲音频数据中的音频信息进行编码，获得相应的编码信息；将所述编码信息输入已训练至收敛状态的特征提取模型的共用网络，经该共用网络中的多个卷积块依次对所述编码信息进行多级特征提取，获得中间特征信息；将所述中间特征信息输入所述特征提取模型的两个以上的分支网络，经每个分支网络中的多个卷积块对所述中间特征信息进行特征提取后，转换为相应的输出特征向量，各分支网络的输出特征向量所包含的深层语义信息各不相同；将所述输出特征向量作为表征所述歌曲音频数据的深层语义信息的高维索引向量。本申请提升了歌曲音频数据的深层语义信息的表示学习能力。
歌曲索引方法及其装置设备介质产品

[发明专利]基于人工智能的在线服务反馈交互方法及大数据系统-CN202311141567.6在审
发明人：王均;段延祥 -专利权人：宁波尚煦智能科技有限公司
申请日： 2023-09-06 - 公布日： 2023-10-27 - 主分类号： G06F16/332 文献下载
摘要：本申请实施例实施例提供一种基于人工智能的在线服务反馈交互方法及大数据系统，通过基于范例基础对话音频数据以及范例情感对话音频数据，生成范例融合对话音频数据，利用对话音频特征训练网络获取范例融合对话音频数据的第一估计对话知识点数据以及第一估计情感类别数据，并且利用对话音频特征训练网络获取范例情感对话音频数据的第二估计对话知识点数据以及第二估计情感类别数据，由此生成对话音频特征提取网络，可以实现对话音频数据的音频情感特征扩展，减少网络训练过程中的标注工作量，有助于改善对话音频特征提取网络的特征提取性能，从而便于提高后续在线服务反馈的有效性。
基于人工智能在线服务反馈交互方法数据系统

[发明专利]一种各类呼吸暂停综合征的分类检测系统-CN202010643345.4在审
发明人：程思一;李文钧;岳克强;孙洁;刘昊;潘成铭 -专利权人：杭州电子科技大学
申请日： 2020-07-06 - 公布日： 2020-09-01 - 主分类号： G10L15/02 文献下载
摘要：本发明公开了一种基于EfficientNeT神经网络的各类呼吸暂停综合征的分类检测系统，属于鼾声检测及疾病判别领域；包括音频采集模块、鼾声提取模块、特征提取模块、鼾声识别模块、统计判断模块，所述音频采集模块，用于采集被测患者整晚睡眠状态时音频；所述鼾声提取模块，用于提取完整音频中所有的鼾声段音频；所述特征提取模块，用于对采集得到的鼾声段进行特征提取；所述鼾声识别模块，用于使用基于EfficientNeT神经网络的模型对所有的鼾声段进行各类鼾声的自动识别与检测
一种各类呼吸暂停综合征分类检测系统

[发明专利]音频不流利的识别方法、装置、设备及可读存储介质-CN202110258590.8有效
发明人：康昱;李航;丁文彪;刘子韬 -专利权人：北京世纪好未来教育科技有限公司
申请日： 2021-03-10 - 公布日： 2021-06-29 - 主分类号： G10L25/51 文献下载
摘要：本发明提供一种音频不流利的识别方法、装置、设备及可读存储介质，识别方法包括：将音频片段输入预设的音频特征提取模型，得到音频片段的音频特征；将音频片段对应的文本输入预设的文本特征提取模型，得到文本特征；根据音频特征和文本特征，利用音频不流利判别模型的判别器，得到音频不流利的识别结果。本发明的识别方法有效的结合了音频片段中的文本信息与音频信息对不流利进行判断，提升了不流利识别准确率。
音频流利识别方法装置设备可读存储介质

[发明专利]一种基于语音相似性匹配的语音唤醒方法及系统-CN202110341328.X在审
发明人：熊浩;龚科 -专利权人：暗物智能科技(广州)有限公司
申请日： 2021-03-30 - 公布日： 2022-10-21 - 主分类号： G10L15/22 文献下载
摘要：本发明公开了一种基于语音相似性匹配的语音唤醒方法及系统，通过对神经网络模型进行训练得到音频特征提取模型；利用音频特征提取模型对预设数量差异性较大的唤醒词样本数据进行推理，得到对应内容特征向量，进而得到唤醒词样本库；通过对音频流实时进行监听，将其中的非静音音频数据输入到音频特征提取模型提取音频流的内容特征向量；将提取的内容特征向量与唤醒词样本库进行比对计算得到相似度数值，并与预设阈值比较，当小于预设阈值时匹配成功
一种基于语音相似性匹配唤醒方法系统

[发明专利]声学深度学习模型训练方法、语音生成方法及设备-CN202111310778.9有效
发明人：陈栋 -专利权人：北京优幕科技有限责任公司
申请日： 2021-11-08 - 公布日： 2022-02-15 - 主分类号： G10L15/00 文献下载
摘要：本申请提供一种声学深度学习模型训练方法、语音生成方法及设备，所述语音生成方法包括：获取文本数据和语种信息；根据所述语种信息将所述文本数据转换为音素，并为每个所述音素分别添加语种标签；利用深度学习模型生成音频数据，所述深度学习模型包括音频生成模块、文本特征提取模块、流映射模块和时长预测模块，其中所述文本特征提取模块用于对所述音素提取文本特征值，所述时长预测模块用于根据所述文本特征提取模块提取的文本特征生成时长信息，所述流映射模块用于根据所述文本特征值和所述时长信息计算潜在变量，并根据所述潜在变量生成频谱特征数据，所述音频生成模块根据所述频谱特征数据生成音频数据。
声学深度学习模型训练方法语音生成设备