[发明专利]音频处理方法、装置、计算机设备以及存储介质有效
申请号: | 202010557991.9 | 申请日: | 2020-06-18 |
公开(公告)号: | CN111710346B | 公开(公告)日: | 2021-07-27 |
发明(设计)人: | 鲍枫 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G10L25/12 | 分类号: | G10L25/12;G10L25/18;G10L25/30;G10L21/034 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强;杜维 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请实施例公开了一种音频处理方法、装置、计算机设备以及存储介质,音频处理方法包括:获取正样本音频的正样本频谱特征,以及获取负样本音频的负样本频谱特征;基于样本增益预测模型和负样本频谱特征确定负样本音频的的预测音频增益,并根据正样本频谱特征和负样本频谱特征确定负样本音频的样本音频增益,根据样本音频增益或预测音频增益调整样本增益预测模型的模型损失函数,根据调整后的模型损失函数训练样本增益预测模型,得到目标增益预测模型;目标增益预测模型用于预测目标音频的目标音频增益。采用本申请,可以提高预测模型的预测准确率。 | ||
搜索关键词: | 音频 处理 方法 装置 计算机 设备 以及 存储 介质 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202010557991.9/,转载请声明来源钻瓜专利网。
- 同类专利
- 音乐驱动的舞蹈生成方法-201911068080.3
- 刘亚洲;祁玉 - 南京理工大学
- 2019-11-04 - 2023-10-17 - G10L25/12
- 本发明公开了一种音乐驱动的舞蹈生成方法,包括以下几个方面:1)收集了一个舞蹈数据集;2)对音乐和舞蹈序列进行高级特征的提取;3)提出了一个全新的跨域序列对序列学习框架,用于现实舞蹈的生成。本发明的方法不仅效率高,准确率也得到了提高;模型更复杂,模型体积小,计算速度快;预测过程更加简易,可以快速地将音乐与舞蹈序列结合。
- 一种基于音频场景识别的学生行为日志生成方法及系统-202210022139.0
- 冷严;刘祯;李甜甜;王青;路安芹;潘杰 - 山东师范大学
- 2022-01-10 - 2022-05-27 - G10L25/12
- 本发明属于音频场景识别技术领域,提供了一种基于音频场景识别的学生行为日志生成方法及系统。该方法包括,获取录制的音频文档,将音频文档分成若干音频片段;基于所述音频片段采用训练好的教育场景识别模型,得到各个音频片段的教育场景预测标签;为各个音频片段标记起始时间点和终止时间点,根据各个音频片段标记起始时间点和终止时间点结合各个音频片段的教育场景预测标签,生成时间分布行为日志;其中,教育场景识别模型预测的过程包括提取音频文档的频谱特征和主题在音频字上的概率分布,基于主题在音频字上的概率分布和音频文档的频谱特征生成主题特征,更新主题特征,基于更新的主题特征进行分类,得到教育场景预测标签。
- 一种改进的录音设备识别算法-201910841092.9
- 包永强;梁瑞宇;王青云;冯月芹;唐闺臣;朱悦 - 南京工程学院
- 2019-09-06 - 2022-03-01 - G10L25/12
- 本发明公开了一种改进的录音设备识别算法,构建模型一和模型二,模型一包括双向门循环神经网络层、单向门循环神经网络层和注意力层,模型二包括卷积层、跳跃连接层和全局平均池化层,对待检测的音频信号进行分帧和预处理,提取音频信号的多维帧级特征作为模型一的输入、梅尔频谱特征作为模型二的输入,并将模型一和模型二的输出特征进行拼接融合,分类并得出识别结果。本发明的识别算法保留了音频信号的时序特性,通过增加注意力机制、跳跃连接结构和隐藏单元拼接方法等方式,最终得到优质的录音设备相关的特征参数,提高了录音设备的识别效果和模型的鲁棒性。
- 音频处理方法、装置、计算机设备以及存储介质-202010557991.9
- 鲍枫 - 腾讯科技(深圳)有限公司
- 2020-06-18 - 2021-07-27 - G10L25/12
- 本申请实施例公开了一种音频处理方法、装置、计算机设备以及存储介质,音频处理方法包括:获取正样本音频的正样本频谱特征,以及获取负样本音频的负样本频谱特征;基于样本增益预测模型和负样本频谱特征确定负样本音频的的预测音频增益,并根据正样本频谱特征和负样本频谱特征确定负样本音频的样本音频增益,根据样本音频增益或预测音频增益调整样本增益预测模型的模型损失函数,根据调整后的模型损失函数训练样本增益预测模型,得到目标增益预测模型;目标增益预测模型用于预测目标音频的目标音频增益。采用本申请,可以提高预测模型的预测准确率。
- 一种基于变分高斯回归过程的语音数据处理方法-201711474721.6
- 徐宁;缪晓宇;刘小峰;蒋爱民;王平 - 河海大学常州校区
- 2017-12-29 - 2021-06-25 - G10L25/12
- 本发明公开了一种基于变分高斯回归过程的语音数据处理方法,基于变分高斯回归过程模型进行语音数据处理,所述变分高斯回归过程模型在VFE近似基础上,对对数似然函数进行变换,使得求出的最终下限变大,求出活动点集的自由变分高斯分布,自由变分高斯分布为映射近似中所需要的选取点的后验分布,按映射近似的方法来对语音数据进行处理。本发明提高计算的效率,对于最后求出的下限最大值中的部分项作出近似,在尽量减小相似性的损失的同时,使得计算效率能够大大提升。
- 一种数据处理方法以及设备-202110098039.1
- 陈颖 - 腾讯音乐娱乐科技(深圳)有限公司
- 2021-01-25 - 2021-06-08 - G10L25/12
- 本申请实施例公开一种数据处理方法以及设备,其中方法包括如下步骤:从训练语音集合中获取第一语音样本,从目标语音集合中获取第二语音样本;采用主成分分析法获取第一语音样本对应的第一低维特征和第二语音样本对应的第二低维特征;将第二低维特征映射至第一低维特征对应的第一低维空间,生成第二低维特征在第一低维空间的第二映射特征;根据第二映射特征和第二低维特征生成第一低维特征在第二低维空间对应的第一映射特征;根据第一映射特征生成情感识别模型,情感识别模型用于预测与第二语音样本的语言类型相同的待识别语音的情感类型。采用本申请,可以节省资源和开发成本,提高语音情感分类的准确率。
- 基于卷积神经网络的语音人格预测方法-201910353936.5
- 沈伟林 - 华院数据技术(上海)有限公司
- 2019-04-29 - 2020-12-18 - G10L25/12
- 本发明公开了一种基于卷积神经网络的语音人格预测方法,包括:步骤S1,建立训练样本集,包括:将语音数据文件转换为语谱图,对被采集人进行大五人格问卷测试,计算每个人格维度分数的平均值和标准差,对符合预设要求的人格维度分数进行标记;步骤S2,训练卷积神经网络模型,包括:采用BP算法训练神经网络模型,在迭代时计算网络误差和更新权重,训练至验证集的正确率不再提高时终止,保存神经网络参数作为神经网络模型;步骤S3,利用卷积神经网络模型对待测语音数据进行人格预测。通过本发明的技术方案,克服了传统方法需要很强的先验知识来辅助提取有区分度特征的缺点,实现了语音特征的自动化提取。
- 音频输出产生系统、音频通道输出方法和计算机可读介质-201680089831.8
- S·巴里塔卡 - 惠普发展公司,有限责任合伙企业
- 2016-11-04 - 2020-03-24 - G10L25/12
- 一种示例非暂态计算机可读介质包括指令。当由处理器执行时,所述指令使所述处理器从音频信号的低频部分去除非主频率。所述指令还使所述处理器对所述低频部分的其余部分应用非线性处理以生成多个谐波。所述指令使所述处理器将所述多个谐波插入到与所述音频信号的高频部分相对应的音频输出中。所述音频输出将被提供给音频输出设备。
- 基于声音采集的健康状态监控方法、装置及存储介质-201910269275.8
- 王义文;王健宗 - 平安科技(深圳)有限公司
- 2019-04-04 - 2019-08-16 - G10L25/12
- 本发明涉及人工智能技术领域,公开了一种基于声音采集的健康状态监控方法,该方法包括:采集用户及周围环境的声音数据,并获取用户的行为数据;从上述采集的声音数据以及行为数据中提取特征数据;构建情感分析模型,采用已知情感库和上述提取到的特征数据对所述情感分析模型进行训练;基于采集的被监测用户的声音数据,利用所述情感分析模型,判断所述被监测用户的健康状态,在所述被监测用户处于非健康状态下,对所述被监测用户进行提醒。本发明还提出一种基于声音采集的健康状态监控装置以及一种计算机可读存储介质。本发明通过对用户和外界的沟通表达出来的状态信息进行利用和分析,能够主动、自动的评估用户的健康状态。
- 一种基于谱聚类的音频特征降维方法-201810996351.0
- 龙华;孙慧芳;邵玉斌;杜庆治 - 昆明理工大学
- 2018-08-29 - 2019-02-15 - G10L25/12
- 本发明涉及一种基于谱聚类的音频特征降维方法,属于音频信号处理技术领域。本发明首先对语音信号进行预处理,再对预处理后的语音特征参数采用谱聚类算法进行降维处理,在不丢弃特征信息量的同时尽可能使其达到所要求的降维效果。本发明对音频特征参量进行降维主要是对基于声道特性的线性预测系数、线性预测倒谱系数和基于人耳听觉特性的梅尔频率倒谱系数进行降维处理。本发明与现有技术相比,对数据分布的适应性更强、计算量小、实现起来也不复杂,主要解决了语音信号多种特征参数融合共同参与语音识别时,信息量冗余、计算量大、识别效率低等缺点。
- 基于声音线性预测倒谱系数的工程机械的识别方法-201510637964.1
- 曹九稳;杨三伟;王建中;王瑞荣;赵伟杰;吴成才 - 浙江图维电力科技有限公司
- 2015-09-29 - 2015-12-02 - G10L25/12
- 本发明提供了一种基于声音线性预测倒谱系数的工程机械识别方法,包含以下步骤:在施工现场真实环境下采集背景噪音信号;将工程机械置于理想环境下,启动工程机械;声音采集装置采集工程机械发出的声音信号;声音信号进行端点检测、加窗、分帧,端点检测通过过零率来实现,采用汉明窗对信号进行分帧;对分帧后的每帧信号提取LPCC;采用支持向量机建立工程机械声音特征指纹库;对实时声音信号提取LPCC后采用支持向量机与特征指纹库进行匹配,实现分类。
- 专利分类