[发明专利]一种基于深度学习的钢琴和声自动编配系统及方法有效

专利信息
申请号: 201910274225.9 申请日: 2019-04-08
公开(公告)号: CN110136730B 公开(公告)日: 2021-07-20
发明(设计)人: 韦岗;梁世威;曹燕 申请(专利权)人: 华南理工大学
主分类号: G10L21/007 分类号: G10L21/007;G10L25/30;G10L25/87;G06N3/08
代理公司: 广州粤高专利商标代理有限公司 44102 代理人: 何淑珍;江裕强
地址: 510640 广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提供一种基于深度学习的钢琴和声自动编配系统及方法。该系统包括三个模块:音符检测模块、音符估计模块和神经网络模块。音符检测模块负责提取音符起点和音符终点,将一首音乐分割成多个音符段,每个音符段包含一个或者多个音符。音符估计模块负责提取每个音符段的主音符以及和声。神经网络模块负责将上述的主音符序列以及和声序列分别作为神经网络的输入以及输出进行训练,训练完成后神经网络便具有为主音符编配和声的能力,从而实现和声自动编配。本发明利用钢琴按键的音高以及谐波结构信息,使得音符检测以及音符估计的性能得到提高,同时可根据用户的喜好训练特定音乐,从而编配对应风格的和声。
搜索关键词: 一种 基于 深度 学习 钢琴 和声 自动 编配 系统 方法
【主权项】:
1.一种基于深度学习的钢琴和声自动编配系统,其特征在于包括音符检测模块、音符估计模块和神经网络模块;音符检测模块负责提取所有音符的起点时间和结束时间,将一首wav格式的钢琴音乐分割成多个音符段,每个音符段包含一个或者多个音符;音符估计模块负责提取每个音符段的主音符以及和声,按照时间顺序拼接得到主音符序列以及和声序列,和声是指多个音符的组合;神经网络模块负责将提取到的主音符序列以及和声序列分别作为输入和输出对神经网络模型进行训练,训练完成后,往模型输入主音符序列,得到对应的和声序列,从而实现和声的自动编配。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910274225.9/,转载请声明来源钻瓜专利网。

同类专利
  • 音频处理方法、装置、电子设备及可读存储介质-202310952271.6
  • 马丹 - 咪咕文化科技有限公司;中国移动通信集团有限公司
  • 2023-07-31 - 2023-10-20 - G10L21/007
  • 本申请公开了一种音频处理方法、装置、电子设备及可读存储介质,属于人工智能技术领域。本申请实施例的音频处理方法包括:获取待处理音频;将待处理音频输入到预训练音频模型的编码器中,获得所述待处理音频对应的插件参数簇;将所述待处理音频和所述插件参数簇输入到预训练音频模型的音频插件层中,利用所述插件参数簇对所述待处理音频进行渲染,获得具有所述音频插件层对应的音频效果的目标音频。由此,相比于人工处理方式,可以提升音频处理效率。
  • 语音处理方法、装置、电子设备及存储介质-201910227101.5
  • 陈岩 - OPPO广东移动通信有限公司
  • 2019-03-25 - 2023-10-20 - G10L21/007
  • 本公开提供了一种语音处理方法、装置、电子设备及计算机可读存储介质,涉及音频处理技术领域,所述语音处理方法包括:接收由音频采集设备获取并发送的语音信号;对所述语音信号对应的时域信号进行用于调整采样频率的变调处理,得到变调后的语音信号;将变调后的语音信号对应的时域信号进行播放时间保持,以得到目标语音信号;其中,所述变调后的语音信号的播放时间与所述语音信号的播放时间相同。本公开能够快速精准地进行语音变调。
  • 一种基于语音样本的游戏语音转换方法及装置-202310905011.3
  • 黄志松;李鹤;周义;姚茜 - 清枫(北京)科技有限公司
  • 2023-07-21 - 2023-09-22 - G10L21/007
  • 本申请提供了一种基于语音样本的游戏语音转换方法及装置。该方法包括:响应于用户选定游戏人物的选定消息,获取游戏人物的语音样本;根据语音样本确定语音信息;在游戏中,将用户所讲的语音根据语音信息转换为游戏人物的游戏语音。本申请通过获取游戏人物的语音样本,根据语音样本确定语音信息,在游戏中,将用户所讲的语音根据语音信息转换为游戏人物的游戏语音,避免直接将用户开麦后的环境声音与游戏特效声音融合,从而可以避免声音混乱,变为嘈杂的声音,以解决影响游戏效果的问题。
  • 语音转换方法、装置、设备及可读存储介质-201910506086.8
  • 王燕南;黄俊;陈家君;王青 - 腾讯科技(深圳)有限公司
  • 2019-06-12 - 2023-09-15 - G10L21/007
  • 本申请公开了一种语音转换方法、装置、设备及可读存储介质,涉及音频处理领域。该方法包括:获取源语音,源语音为以第一人声发出的语音;提取源语音的音素后验概率;通过编码器对音素后验概率进行编码处理,得到编码层特征;通过解码器对编码层特征进行解码处理,得到频谱特征,编码器和解码器是通过第二人声的样本语音训练得到的;将频谱特征进行语音合成处理,得到第二人声的目标语音。通过编码器和解码器对PPGs进行处理,得到频谱特征后,通过频谱特征对目标语音进行合成,由编码器和解码器两层结构对PPGs进行处理,提高了对第二人声的语音情感以及语音韵律的把控,提高了目标语音与第二人声实际发出的声音之间的相似度。
  • 生成音效参数的方法、装置及存储介质-201811302799.4
  • 陈琳琳;彭学杰;刘佳泽;陈普森 - 广州酷狗计算机科技有限公司
  • 2018-11-02 - 2023-09-01 - G10L21/007
  • 本发明公开了一种生成音效参数的方法、装置及存储介质,属于电子技术领域。所述方法包括:获取目标音乐集合,该目标音乐集合包括目标演唱者所演唱的至少一首音乐;对该目标音乐集合中的音乐进行分析,并根据分析结果确定该目标演唱者的音乐演唱特征;根据该目标演唱者的音乐演唱特征生成目标音效参数;在音乐播放装置接收到针对该目标演唱者演唱的音乐的播放指令后,该音乐播放装置获取该目标音效参数,根据该目标音效参数对该目标演唱者演唱的音乐进行音效处理,并对进行音效处理后的该目标演唱者演唱的音乐进行播放。本发明实施例提供的生成音效参数的方法能够提高对音乐进行音效处理的灵活性。
  • 基于改进型编码器的语音转换方法和装置、电子设备-202310638471.4
  • 郭洋;王健宗 - 平安科技(深圳)有限公司
  • 2023-05-31 - 2023-08-29 - G10L21/007
  • 本申请实施例提供了一种基于改进型编码器的语音转换方法和装置、电子设备,属于金融科技领域。该方法包括:获取待转换的目标说话人语料的目标梅尔频谱特征;基于第一预设神经网络对目标梅尔频谱特征进行预处理,得到中间特征结果;基于第二预设神经网络获取对应于中间特征结果的高斯分布均值和高斯分布方差;根据高斯分布均值和高斯分布方差确定特征分布空间;在特征分布空间中进行随机采样,得到目标说话人嵌入向量;将目标说话人嵌入向量输入到预训练的语音转换网络中,得到重构的转换梅尔频谱特征;根据转换梅尔频谱特征生成目标转换语料。本申请实施例,有利于扩展语音转换模型的建模能力和应用场景,提高语音转换过程的稳定性。
  • 音频修复方法、装置、计算机设备和存储介质-202310672388.9
  • 徐雪;张驰;杨洁琼;江文乐 - 中国工商银行股份有限公司
  • 2023-06-08 - 2023-08-22 - G10L21/007
  • 本申请涉及一种音频修复方法、装置、计算机设备、存储介质和计算机程序产品,可用于音频处理技术领域,也可用于金融科技领域或其他相关领域。该方法包括:获取金融系统的待修复音频的原始频谱图;对原始频谱图进行特征提取处理,得到待修复音频的原始频谱特征图,对原始频谱特征图进行不同倍数的下采样处理,得到待修复音频的多个尺度的频谱特征图;对各个尺度的频谱特征图进行特征提取处理,得到各个尺度的目标频谱特征图;根据待修复音频和各个尺度的目标频谱特征图,进行音频重建处理,得到待修复音频的目标频谱图;对目标频谱图进行音频转化,得到待修复音频的修复音频。采用本方法,能够提高音频修复效果。
  • 基于hi35xx平台的软件混音方法-202310519597.X
  • 陈晨 - 国科环宇(南京)电子技术有限公司
  • 2023-05-09 - 2023-08-18 - G10L21/007
  • 本发明公开了基于hi35xx平台的软件混音方法,包括以下方法:步骤S1:初始化工作模块;步骤S2:创建拉流解码线程,将码流送入解码器进行解码,解码后的数据由海思芯片自动放入缓存池;步骤S3:将步骤S1和步骤S2中获得的音频数据创建混音线程,以阻塞方式从解码通道中获取音频帧数据,从而获取码流数目;步骤S4:将步骤S3中的码流数目进行分析;如果只有一路音频码流,则不需要混音。本发明自动识别当前场景是否需要混音,在单路码流时避免冗余计算,减少系统的多余开销,混音算法中的衰减因子可以自适应调节,当数据溢出时,则相应地使因子变小,使后续的数据衰减后处于临界范围内,没有溢出时,衰减因子慢慢变大,使数据变化相对平滑。
  • 语音转换处理方法、装置、计算机设备及存储介质-202310685998.2
  • 郭洋;王健宗 - 平安科技(深圳)有限公司
  • 2023-06-09 - 2023-08-15 - G10L21/007
  • 本申请涉及人工智能、语音转换技术领域,公开了一种语音转换处理方法,能够转换为多样性丰富的语音。方法部分包括:获取输入梅尔谱,并获取多个不同目标语音域的参考梅尔谱;将输入梅尔谱输入预先训练好的生成器的编码器,得到隐变量特征,并将输入梅尔谱输入基频提取网络,得到基频特征;将多个参考梅尔谱分别输入风格编码器,得到多个风格编码;将每组输入数据输入到生成器的解码器中,得到多组输出梅尔谱,各组输入数据包括隐变量特征、基频特征以及不同的风格编码;基于多组输出梅尔谱转换出对应的音频,得到多组目标语音。
  • 一种建筑工地场界噪声背景干扰在线修正方法及系统-202310848912.3
  • 毛庆国;徐怀洲;王宏;许盛彬 - 南方科技大学;深圳市生态环境智能管控中心
  • 2023-07-12 - 2023-08-11 - G10L21/007
  • 本发明涉及一种建筑工地场界噪声背景干扰在线修正方法及系统,方法包括:实时获取建筑工地场界噪声的声压级数据,并基于声压级数据生成第一时间序列数据;实时获取建筑工地施工状态监测信息数据,并基于施工状态监测信息数据生成第二时间序列数据;基于第一时间序列数据和第二时间序列数据,获取统一时间序列的数据集,并基于统一时间序列的数据集,获取非施工状态监测数据集和施工状态监测数据集;获取监测时段的需求信息,并根据需求信息采用预先设定的第一处理方式,获取原数据;基于监测时段的需求信息,针对统一时间序列的数据集进行第二处理方式,获取背景噪音;基于原数据和背景噪音,采用预先设定策略修正所述背景噪音,并输出修正值。
  • 一种语音风格的转换方法、装置、设备和存储介质-202010104395.5
  • 娄帆 - 广州市百果园信息技术有限公司
  • 2020-02-20 - 2023-08-11 - G10L21/007
  • 本发明实施例公开了一种语音风格的转换方法、装置、设备和存储介质。其中,该方法包括:获取源风格语音、目标风格语音和初始转换语音;根据初始转换语音和源风格语音之间的语音内容损失以及初始转换语音和目标风格语音之间的语音风格损失,对初始转换语音进行损失优化,得到新的初始转换语音继续进行损失优化,直至新的初始转换语音满足预设的损失优化条件,则将新的初始转换语音作为源风格语音在目标风格下的风格转换语音。本发明实施例提供的技术方案,实现源风格语音在目标风格下的准确转换,无需针对该目标风格进行语音风格转换的预先训练,保证未经过预先训练的目标语音下的语音风格转换,提高语音风格转换的全面性和准确性。
  • 模型更新方法和装置、语音转换方法、设备及存储介质-202310638552.4
  • 张旭龙;王健宗;唐怀朕 - 平安科技(深圳)有限公司
  • 2023-05-31 - 2023-08-04 - G10L21/007
  • 本申请提供了一种模型更新方法和装置、语音转换方法、设备及存储介质,属于金融科技技术领域。该方法包括:获取样本语音数据;将样本语音数据输入至神经网络模型中;通过编码网络对样本语音数据进行编码处理,得到初始音频特征向量;基于预设码本对初始音频特征向量进行索引查询,得到音频帧索引,基于音频帧索引对初始音频特征向量进行音素特征提取,得到初始音素特征向量;对初始音素特征向量进行语音对齐,得到样本音频嵌入向量;通过解码网络对样本音频嵌入向量和说话风格嵌入向量进行解码处理,得到合成语音数据;基于合成语音数据和样本语音数据对神经网络模型进行参数更新,得到语音转换模型。本申请能够提高模型对语音转换的准确性。
  • 音色转换方法、装置、电子设备及可读存储介质-202310343473.0
  • 王愈;陈明;李健;武卫东 - 北京捷通华声科技股份有限公司
  • 2023-03-31 - 2023-07-21 - G10L21/007
  • 本发明实施例提供了一种音色转换方法、装置、电子设备及存储介质,包括:将发音人员的第一音素后验概率向量PPGs序列进行降采样过滤,生成第二PPGs序列,将第二PPGs序列输入持续时间预测模块,输出时长预测结果,根据时长预测结果对第二PPGs序列进行拓展,生成第三PPGs序列,将第三PPGs序列输入目标模块完成目标人员的音色转换,本发明实施例通过在经典技术框架的基础上,针对目标人员的语速特色进行专项建模,生成语音中各字的节奏和吐字,都能较大程度地剥离掉输入语音的特色,而更贴近目标人员的特色,大大提高了音质的相似度。
  • 语音转换方法、语音模型训练方法、装置、设备及介质-202310446782.0
  • 郭洋;王健宗 - 平安科技(深圳)有限公司
  • 2023-04-14 - 2023-07-21 - G10L21/007
  • 本发明适用于语音转换领域,尤其涉及一种语音转换方法、语音模型训练方法、装置、设备及介质。本发明实施例将样本语音波形输入至内容编码器得到内容特征,将参考语音波形输入至语音编码器得到说话人特征,并将内容特征、说话人特征输入至生成器进行N次上采样处理和残差连接处理,得到N个预设频率依次升高的音频波形,通过在生成器端逐步加入上采样、在判别器端逐步加入下采样的步进方法,在提高了语音转换模型训练速度的同时,提高了音频波形的稳定性和准确性,并通过判别器和基频提取模型得到判别结果和基频,用于监督语音转换模型的训练,保证了生成的语音波形的内容和音色音调不变性,提高了语音转换模型的准确率。
  • 一种基于应用程序的音频增益方法及装置-202310324960.2
  • 王恒;黄锡鹏;高韦涵;黎钰 - 广州市迪士普音响科技有限公司
  • 2023-03-29 - 2023-07-04 - G10L21/007
  • 本发明公开了一种基于应用程序的音频增益方法及装置,该方法包括:通过预设的应用程序读取目标音频文件的增益阈值及增益时长,并根据所述增益阈值及所述增益时长获得所述目标音频文件的增益周期,同时根据所述应用程序中预设的音频解码方式对所述目标音频文件进行解码,持续获得所述目标音频文件对应的第一音频,最后根据所述增益周期,通过预设在所述应用程序中的自动增益方案对所述持续获得的第一音频进行持续增益直至所述增益达到所述增益阈值,获得增益后的第二音频,提高音频增益效果及用户听感体验。
  • 一种端到端语音转换模型及其训练方法、推理方法-202310130695.4
  • 王飞;王欢良;吴天昕 - 苏州奇梦者科技有限公司
  • 2023-02-17 - 2023-06-30 - G10L21/007
  • 本申请提供了一种端到端语音转换模型及其训练方法、推理方法,该模型以条件变分编码器为基础,训练时将声学模型与声码器共同训练,避免训练与推理的不匹配。使用大规模预训练Hubert模型来提取内容信息表征,既可初步剥离内容表征中的说话人信息,也丰富了内容表征中的声韵学信息。通过使用梯度反转方法,进一步剥离内容信息表征中的说话人信息,从而避免音色泄露。通过码本量化方法,简化了内容表征的复杂度,并提升了音色剥离能力。此外,通过采用基于KL散度的模型蒸馏方法,将计算复杂的内容提取器蒸馏至计算更加高效的学生网络中,极大减小了模型的计算复杂度。
  • 音色转换方法、装置、电子设备、存储介质及程序产品-202310305854.X
  • 朱鹏程;宁子谦;毕梦霄;吕唐杰;胡志鹏 - 网易(杭州)网络有限公司
  • 2023-03-21 - 2023-06-30 - G10L21/007
  • 本申请提供一种音色转换方法、装置、电子设备、存储介质及程序产品,所述方法包括:获取第一音频数据,提取所述第一音频数据的第一韵律特征、语义特征以及非语义特征;其中,所述第一韵律特征表征预设音色以及与所述预设音色相应的第一韵律;根据所述第一韵律特征以及预先确定的目标音色数据确定第二韵律特征;其中,所述第二韵律特征表征目标音色以及所述第一韵律;根据所述第二韵律特征将所述语义特征以及所述非语义特征进行融合,得到语音融合特征;根据所述语音融合特征以及所述第二韵律特征确定第二音频数据。
  • 一种数字音频处理方法及系统-202110575524.3
  • 王恒;陈科壬;朱镇熙;李子强;东莲正 - 广州市迪士普音响科技有限公司
  • 2021-05-26 - 2023-06-30 - G10L21/007
  • 本发明提供一种数字音频处理方法及系统,其中,方法包括:获取音频输入信号,对所述音频输入信号进行预处理,得到音频第一信号;其中,所述预处理包括:调节音量增益、控制相位变换、设置相关参数;通过反馈抑制算法对所述音频第一信号进行啸叫处理,得到音频第二信号;通过DSP混响算法对所述音频第二信号进行混响处理,得到音频第三信号。本发明可以同时处理反馈抑制和混响调节,适用场合大大增加;通过网络能进行远程便捷升级,使得用户,开发者都能高效的使用和开发产品。
  • 音频数据处理方法、存储介质和电子设备-202211090684.X
  • 梁启东;付长伟;胡飞阳;唐小军;李松林;罗炜儒;滕龙斌;张婷婷 - 阿里巴巴(中国)有限公司
  • 2022-09-07 - 2023-06-23 - G10L21/007
  • 本发明公开了一种音频数据处理方法、存储介质和电子设备。其中,该方法包括:接收来自于多个第一终端的多路第一音频数据,其中,每路第一音频数据的音频处理参数基于每个第一终端与自适应网络混音服务器之间的上行网络状态进行自适应调整;对多路第一音频数据进行混音处理,得到第二音频数据;将第二音频数据发送至多个第二终端,其中,第二音频数据的音频处理参数基于自适应网络混音服务器与每个第二终端之间的下行网络状态进行自适应调整。本发明解决了相关技术提供的音频数据处理方法仅针对低频带音频在正常网络状态处理导致音频数据传输效率低、传输质量差的技术问题。
  • 一种基于深度学习的音域平衡方法、装置及系统-201810583138.7
  • 姚青山;秦宇;喻浩文;卢峰 - 安克创新科技股份有限公司
  • 2018-06-05 - 2023-06-23 - G10L21/007
  • 本发明提供了发明提供了一种基于深度学习的音域平衡方法、装置、及系统,所述方法包括:对音频数据进行特征提取得到音频数据特征;基于所述音频数据特征,利用训练好的音域平衡模型,生成所述待处理的音频数据的推荐音域平衡结果。本发明基于深层神经网络和无监督深度学习,解决无分类标签音乐和未知风格音乐的音域平衡的问题,并结合对用户偏好的统计,实现更合理的多类别音域平衡设计,满足个性化需求。
  • 一种基于生成对抗式神经网络模型的语音转换方法-202310179496.2
  • 徐颖;凌天格;刘煌 - 上海格子互动信息技术有限公司
  • 2023-02-27 - 2023-06-20 - G10L21/007
  • 本发明涉及语音转换技术,尤其涉及一种基于生成对抗式神经网络模型的语音转换方法。具体包括:S1、分别提取用户音频信息中的音频特征;S2、根据用户音频内容中的音频特征生成机器音频信息;S3、对用户音频信息与机器音频信息进行基于生成对抗式神经网络模型的循环拟合判断训练,将不同语言的音频特征自动转换为最接近用户表述情绪的机器音频信息。本发明中通过建立生成对抗式神经网络模型的语音转换方法,用以将语义,音高与音色特征单独提取,单独训练后再进行解码融合,从而用以对用户声音进行音色转换,实现非平行对齐下多种语言语义内容的语音转换功能。
  • 一种音频重采样方法、音频处理设备及存储介质-202210644539.5
  • 夏双林;丁锐 - 珠海海奇半导体有限公司
  • 2022-06-09 - 2023-06-16 - G10L21/007
  • 本发明公开了一种音频重采样方法、音频处理设备及存储介质,对基于线性插值的音频抽样方法进行了改进,通过计算样本选择参数,从而对某一个目标音频样本,选择与样本选择参数对应的两个初始音频样本进行重采样。同时,在基于取小数方法下计算获得与多个样本选择参数一一对应的多个采样权重参数。在实际的处理器运算中,会对取小数方法所获得的多个采样权重参数以整数的形式进行处理,实现将浮点运算转换为定点运算。对于无法进行浮点运算的小型嵌入式系统,利用本发明实施例的音频重采样方法,其计算量相较于传统硬件采用滤波器降低了数倍,同时保证处理后音质效果满足实际使用时人耳的听感要求,有利于应用在小型嵌入式系统中来降低成本。
  • 一种音频信号自适应均衡方法、系统、设备及存储介质-202310252793.5
  • 罗顺元;谭淞濒;刘梁 - 百果园技术(新加坡)有限公司
  • 2023-03-07 - 2023-06-13 - G10L21/007
  • 本申请实施例公开了一种音频信号自适应均衡方法、系统、设备及存储介质。本申请实施例提供的技术方案,通过确定音频信号的指数移动平均曲线,基于指数移动平均曲线和预设参考信息确定第一均衡曲线;进而确定指数移动平均曲线与音频信号的短时频谱的差异曲线,根据差异曲线计算修正曲线,并基于修正曲线修正第一均衡曲线,得到第二均衡曲线;之后基于第二均衡曲线确定音频信号的均衡参数,基于均衡参数对音频信号进行均衡处理。采用上述技术手段,可以避免指数移动平均曲线与音频信号的差异导致均衡参数不准确的情况,提升音频信号均衡处理的精准度,进而提升用户的听感体验。
  • 音频共享方法、装置、设备、存储介质及程序产品-202110438123.3
  • 林大伟;李志涛;金永刚;刘萍 - 北京二六三企业通信有限公司
  • 2021-04-22 - 2023-06-09 - G10L21/007
  • 本申请实施例提供一种音频共享方法、装置、设备、存储介质及程序产品。该方法包括:接收来自至少一个第二设备的第一音频数据;将第一音频数据的第一声道中的第一数据设置为预设值;获取第一设备当前播放的第二音频数据;第二音频数据中包括:第一音频数据中第一声道中的预设值和第一设备的系统音频数据中第一声道中的第三数据;根据预设值和第三数据,确定共享音频数据,并向至少一个第二设备发送共享音频数据。本申请实施例提供的音频共享方法、装置、设备、存储介质及程序产品能够提高共享音频数据的音频质量。
  • 音频编辑方法和音频编辑装置-202310180022.X
  • 萌克 - 北京慧晶元科技有限公司
  • 2023-02-17 - 2023-05-23 - G10L21/007
  • 本公开提供一种音频编辑方法和音频编辑装置。一种音频编辑方法可包括:获取多个脉冲响应文件,其中,每个脉冲响应文件包括一种脉冲信号;对每个脉冲响应文件中的脉冲信号进行特征提取,得到每个脉冲响应文件对应的信号特征;基于信号特征对每个脉冲响应文件进行聚类处理;在第一用户界面上按照聚类分布图的形式显示每个脉冲响应文件;并且通过第一用户界面接收用户对目标脉冲响应文件的选择,并且基于选择的目标脉冲响应文件生成目标音频。
  • 可变帧长的拾音方法、电子设备、计算机可读存储介质-201911366399.4
  • 陈洪太;吴长凤;闫荣辉 - 佳禾智能科技股份有限公司
  • 2019-12-26 - 2023-05-23 - G10L21/007
  • 本发明涉及一种可变帧长的拾音方法、电子设备、计算机可读存储介质,用于动态选取合适的音频帧时长,使系统既能保障语音识别成功率,又能满足信号处理及低时延的要求,其中方法包括:步骤A.从音频传输链路建立之刻起,每隔设定的音频帧时长,截取该时间段内所拾音的混合信号,并从中提取人声信号作为音频包进行音频传输;步骤B.在音频传输链路建立之后,实时检测人声停顿间隔;步骤C.每当检测到人声停顿间隔时,在该间隔内拾取音频更新至噪声样本,并判断噪声样本的幅值变化趋势,若新噪声样本的幅值比前一噪声样本大,则增大此后发送的音频包的音频帧时长,若新噪声样本的幅值比前一噪声样本小,则降低此后发送的音频包的音频帧时长。
  • 语音转换模型的训练方法、语音转换方法及相关设备-202310143189.9
  • 郭璇;陈婷;陈闽川;马骏;王少军 - 平安科技(深圳)有限公司
  • 2023-02-16 - 2023-05-12 - G10L21/007
  • 本发明涉及人工智能领域,公开了一种语音转换模型的训练方法、语音转换方法及相关设备。该方法包括:获取与第一语音对应的第一梅尔谱;从第一梅尔谱中提取文本特征和第一音色特征,根据文本特征和第一音色特征得到自重建梅尔谱;获取与第二语音对应的第二梅尔谱;从第二梅尔谱中提取第二音色特征,根据文本特征与第二音色特征得到第三梅尔谱,从第三梅尔谱中提取第三音色特征;根据第一梅尔谱和自重建梅尔谱计算第一损失函数,根据第二音色特征和第三音色特征计算第二损失函数,根据第一损失函数和第二损失函数计算目标损失函数;利用目标损失函数对语音转换模型进行训练,得到训练好的语音转换模型。本发明能够提高音色转换效果和语音转换效率。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top