“庄晓滨”申请（专利权）人搜索_中国专利权人_发明人_技术持有人_科研专家_钻瓜专利网

钻瓜专利网为您找到相关结果43个，建议您升级VIP下载更多相关专利

[发明专利]文本朗读风格生成模型的训练方法、风格生成方法和设备-CN202310894298.4在审
发明人： 庄晓滨 -专利权人：腾讯音乐娱乐科技（深圳）有限公司
申请日： 2023-07-20 - 公布日： 2023-09-12 - 主分类号： G10L13/02 文献下载
摘要：本申请涉及文本朗读风格生成模型的训练方法、风格生成方法、设备和介质，能使文本朗读风格信息与说话人风格解耦，提升语音表现力。包括：根据多个音频句样本及对应的多个句文本样本，获取多个音频句样本对应的多个音频特征和平均说话人朗读特征，将多个句文本样本输入文本编码器，得到多个第一文本朗读风格预测信息，将多个音频特征和平均说话人朗读特征输入音频编码器，得到多个第二文本朗读风格预测信息，基于第一、第二预测信息训练编码器，对应的第一与第二预测信息的相似度大于或等于第一阈值且不对应的第一与第二预测信息的相似度小于第二阈值时，得到经训练的文本编码器作为文本朗读风格生成模型。
文本朗读风格生成模型训练方法设备

[发明专利]一种发音检测方法、装置、电子设备及存储介质-CN202310682722.9在审
发明人： 庄晓滨 -专利权人：腾讯音乐娱乐科技（深圳）有限公司
申请日： 2023-06-09 - 公布日： 2023-08-08 - 主分类号： G10L25/51 文献下载
摘要：本申请提供一种发音检测方法、装置、电子设备及存储介质，涉及语音测评领域，方法包括：获取待测音频的梅尔频谱和待测音频对应的目标发音的音素向量序列；音素向量序列包含目标发音中的各音素对应的音素向量；分别对梅尔频谱和音素向量序列进行编码处理得到声学表征特征和各音素对应的音素表征信息；对声学表征信息和音素表征信息进行注意力处理得到各音素的上下文信息；对音素向量序列进行卷积处理得到各音素的卷积特征；对上下文信息及卷积特征进行拼接得到各音素的拼接特征，并对拼接特征进行检测处理，生成各音素在待测音频中对应的发音检测结果；可结合音素的卷积特征和上下文信息检测其对应的发音错误情况，以提升检测准确度。
一种发音检测方法装置电子设备存储介质

[发明专利]确定虚拟人唇形数据的方法、装置、设备和存储介质-CN202310699580.7在审
发明人： 庄晓滨 -专利权人：腾讯音乐娱乐科技（深圳）有限公司
申请日： 2023-06-13 - 公布日： 2023-08-04 - 主分类号： G10L21/055 文献下载
摘要：本公开公开了一种确定虚拟人唇形数据的方法、装置、设备和存储介质，属于机器学习技术领域。该方法包括；获取音频数据、以及在当前时间步下音频数据对应的第一唇形数据；基于音频数据、当前时间步、第一唇形数据和预先训练完成的目标噪声估计模型，确定在当前时间步下的第一噪声数据；基于音频数据、第一唇形数据、第一噪声数据和反向推断模型，确定对第一唇形数据去除第一噪声数据后的第二唇形数据；基于第二唇形数据确定音频数据对应的用于生成嘴唇图像的目标唇形数据。采用该方案，可以得到与该音频数据相对应的用于生成嘴唇图像的目标唇形数据，从而有利于得到与音频数据匹配的嘴唇图像，有利于提高虚拟数字人的唇形与音频的匹配度。
确定虚拟形数方法装置设备存储介质

[发明专利]音频模板的生成方法、服务器及存储介质-CN202310258009.1在审
发明人： 庄晓滨 -专利权人：腾讯音乐娱乐科技（深圳）有限公司
申请日： 2023-03-08 - 公布日： 2023-07-04 - 主分类号： G10L13/08 文献下载
摘要：本申请涉及一种音频模板的生成方法、服务器及存储介质。所述方法包括：获取目标音频以及目标音频对应的音符序列；确定各音频帧的初始基频特征；确定各音频帧的初始能量特征；以及确定各音符片段的音高特征；基于各音频帧的初始基频特征与对应匹配的音符片段的音高特征之间的统计数据，确定针目标音频的预测基频特征；以及，基于各音频帧的初始能量特征的统计数据，确定针对目标音频的预测能量特征；融合预测基频特征和预测能量特征，生成针对于目标音频的音频模板。采用本方法能够优体现出用户演唱的原始歌声的情感和特点，提升了生成的音频模板的自然度和感染力。
音频模板生成方法服务器存储介质

[发明专利]音频处理方法、装置及存储介质-CN201910943772.1有效
发明人： 庄晓滨;林森 -专利权人：腾讯音乐娱乐科技（深圳）有限公司
申请日： 2019-09-30 - 公布日： 2023-05-30 - 主分类号： G10H1/36 文献下载
摘要：本发明实施例公开了一种音频处理方法、装置及存储介质。该方案可以获取具有目标音频标识的第一独唱音频和第二独唱音频，获取第一独唱音频当中的第一伴奏音频响度与第一人声音频响度，以及第二独唱音频当中的第二伴奏音频响度与第二人声音频响度，并确定第一独唱音频的第一声伴比以及第二独唱音频的第二声伴比，基于第一声伴比和第二声伴比，对第一伴奏音频响度与第一人声音频响度或第二伴奏音频响度与第二人声音频响度进行调整，获取目标音频标识的分段信息，并根据分段信息对调整后的第一独唱音频和第二独唱音频进行合成。本申请实施例所提供的方案可以实现将多个独唱作品合成为合唱作品，并能够提升合唱作品的一致性。
音频处理方法装置存储介质

[发明专利]歌声合成方法、装置、设备及存储介质-CN202310141983.X在审
发明人： 庄晓滨 -专利权人：腾讯音乐娱乐科技（深圳）有限公司
申请日： 2023-02-13 - 公布日： 2023-05-16 - 主分类号： G10L25/48 文献下载
摘要：本申请公开了歌声合成方法、装置、设备及存储介质，该方法包括：获取目标对象的音色特征信息和目标对象的随机噪声表示，以及获取目标歌曲的音素特征信息、音高特征信息和能量信息；将音素特征信息、音高特征信息、音色特征信息、随机噪声表示和能量信息输入预先训练完成的歌声合成模型进行处理，得到目标梅尔谱信息，该歌声合成模型是基于样本音频数据以及对应的歌词文本、样本能量信息和样本随机噪声表示进行训练得到的；基于目标梅尔谱信息生成合成歌曲，该合成歌曲为目标对象针对该目标歌曲的合成音频。通过本申请，能够提高歌声合成的质量和表现力，有利于提高歌声合成的效果。
歌声合成方法装置设备存储介质

[发明专利]数据处理方法、计算机设备及计算机可读存储介质-CN202310164286.6在审
发明人： 庄晓滨 -专利权人：腾讯音乐娱乐科技（深圳）有限公司
申请日： 2023-02-16 - 公布日： 2023-05-12 - 主分类号： G10L13/02 文献下载
摘要：本申请实施例提供了一种数据处理方法、计算机设备及计算机可读存储介质，其中方法包括：获取目标曲谱和目标曲谱对应的目标风格序列；其中，所述目标风格序列用于指示预测的基频的风格特征，所述目标风格序列是根据风格参数确定的，所述风格参数包括抖动频率和/或抖动幅度；对目标曲谱进行解析处理，得到目标曲谱的音高序列和音素序列；并根据音高序列、音素序列和目标风格序列进行基频预测处理，得到目标曲谱对应的目标基频序列；该目标基频序列用于指示演唱者的演唱旋律。通过本申请实施例可以直接根据曲谱生成曲谱的基频序列，且风格序列的加入使得基频序列更加符合真实情况。
数据处理方法计算机设备可读存储介质

[发明专利]歌声合成方法及相关装置-CN202310126243.9在审
发明人： 庄晓滨;陈梦;宗旋 -专利权人：腾讯音乐娱乐科技（深圳）有限公司
申请日： 2023-02-07 - 公布日： 2023-05-05 - 主分类号： G10L25/24 文献下载
摘要：本申请实施例提供了一种歌声合成方法及相关装置，其中方法包括：将待合成音频的音节序列和基频标记序列输入到目标声学模型中的共振峰模型中，获得待合成音频的共振峰表征信息，共振峰表征信息为无音色信息的表征信息；将待合成音频的共振峰表征信息以及音高信息输入到目标声学模型中的音色转换模型中，获得梅尔谱特征，合成的梅尔谱特征包括目标对象的音色信息，音色转换模型是基于目标对象的样本音频训练获得的；将梅尔谱特征输入到声码器中，获得合成的音频信号。可见，采用本申请实施例，可对任意音色跨语种的歌声进行合成。
歌声合成方法相关装置

[发明专利]音素对齐模型训练方法、计算机设备及计算机存储介质-CN202211557817.X在审
发明人： 庄晓滨 -专利权人：腾讯音乐娱乐科技（深圳）有限公司
申请日： 2022-12-06 - 公布日： 2023-04-04 - 主分类号： G10L13/08 文献下载
摘要：本申请实施例公开了一种音素对齐模型训练方法、计算机设备及计算机存储介质，声学特征参数输入至第一卷积结构获得第一卷积特征，根据每个音素的音素序列生成音素序列向量，将原始音频的每相邻3个音素的音素序列向量输入至第二卷积结构获得第二卷积特征，第一卷积特征与第二卷积特征的内积计算结果进行SoftMax计算得到权重向量，根据权重向量对原始音频每相邻3个音素的音素序列向量加权得到音素向量，将音素向量与位置序列相加得到的条件向量输入至初始声学模型，以使得初始声学模型根据条件向量进行训练得到目标声学模型。降低了由人工标注音素位置和时长的精度要求，使得音素能够更加准确地对应于音频的时长，从而提升歌声合成模型的训练效果。
音素对齐模型训练方法计算机设备存储介质

[发明专利]合成音频的鉴别方法、设备和计算机程序产品-CN202211179264.9在审
发明人： 庄晓滨;赵伟峰;姜涛;胡鹏 -专利权人：腾讯音乐娱乐科技（深圳）有限公司
申请日： 2022-09-27 - 公布日： 2023-03-31 - 主分类号： G10L13/02 文献下载
摘要：本申请涉及音频处理技术领域，提供一种合成音频的鉴别方法、设备和计算机程序产品，可以自动鉴别目标音频是否为合成音频。本申请中，利用不同采样率对目标音频进行采样，得到多个对应不同采样率的音频；提取各音频的常数Q变换倒谱系数、线性频率倒谱系数、梅尔频率倒谱系数、基频以及短时能量特征中的至少一项；将各音频的常数Q变换倒谱系数、线性频率倒谱系数、梅尔频率倒谱系数、基频以及短时能量特征中的至少一项，输入预先训练的鉴别模型，得到鉴别模型输出的结果；根据鉴别模型输出的结果，确定目标音频是否为合成音频。
合成音频鉴别方法设备计算机程序产品

[发明专利]音频处理方法及相关装置-CN202211471824.8在审
发明人：陈梦;庄晓滨;赵伟峰;姜涛;胡鹏 -专利权人：腾讯音乐娱乐科技（深圳）有限公司
申请日： 2022-11-22 - 公布日： 2023-03-28 - 主分类号： G10L13/04 文献下载
摘要：一种音频处理方法及相关装置，该方法包括：获取歌曲训练样本的曲谱文件和干声音频；根据曲谱文件确定歌曲训练样本的音节序列和音符序列，以及根据干声音频确定歌曲训练样本的第一基频序列和发音序列；将歌曲训练样本的音节序列和音符序列输入初始基频预测模型得到第二基频序列，并根据第二基频序列和第一基频序列对初始基频预测模型进行训练得到目标基频预测模型；将歌曲训练样本的第一基频序列和发音序列输入初始声学模型得到第一声学特征，并根据第一声学特征和第二声学特征对初始声学模型进行训练得到目标声学模型，目标声学模型和目标基频预测模型用于生成待合成歌曲的合成音频。采用本申请的方法，可以提高合成歌曲的音质。
音频处理方法相关装置

[发明专利]语种识别方法、计算机设备、存储介质和计算机程序产品-CN202211190072.8在审
发明人： 庄晓滨 -专利权人：腾讯音乐娱乐科技（深圳）有限公司
申请日： 2022-09-28 - 公布日： 2023-03-07 - 主分类号： G10L15/00 文献下载
摘要：本申请涉及一种语种识别方法、计算机设备、存储介质和计算机程序产品。所述方法包括：将待识别音频输入至预先训练的音频特征提取模型，得到待识别音频的音频特征；预先训练的音频特征提取模型通过不同语种的样本音频训练得到；从预先训练的音频特征提取模型所包含的音频码本中，得到与待识别音频的音频特征对应的目标码本特征；音频码本包括不同语种的码本特征向量；根据目标码本特征中各码本特征向量的分布，得到待识别音频的分布特征向量；将样本音频的分布特征向量中，与待识别音频的分布特征向量之间的距离满足预设距离条件的目标分布特征向量对应的语种类别，确定为待识别音频的语种类别。采用本方法能够提高语种识别准确率。
语种识别方法计算机设备存储介质程序产品

[发明专利]音质评估模型确定方法、音质评估方法、设备及介质-CN202211340306.2在审
发明人： 庄晓滨 -专利权人：腾讯音乐娱乐科技（深圳）有限公司
申请日： 2022-10-28 - 公布日： 2023-01-20 - 主分类号： G10L25/60 文献下载
摘要：本申请提供了一种音质评估模型确定方法、音质评估方法、设备及介质，其中，该音质评估模型确定方法包括：获得多个音频样本，每个音频样本包括干声片段；利用每个音频样本的干声片段，确定每个音频样本的音高分布向量，并根据每个音频样本的音高分布向量，确定每个音频样本的采样概率；根据每个音频样本的采样概率从多个音频样本中确定音频样本集；利用音频样本集对初始的音质评估模型进行训练，获得训练后的音质评估模型；音质评估模型用于确定输入音频的音频质量。本申请实施例不仅无需音频质量评估过程中的人力成本，而且还能够提升音频质量评估的准确度。
音质评估模型确定方法设备介质

[发明专利]人声和伴奏分离方法及相关产品-CN202010027976.3有效
发明人： 庄晓滨;林森 -专利权人：腾讯音乐娱乐科技（深圳）有限公司
申请日： 2020-01-10 - 公布日： 2022-12-09 - 主分类号： G10L19/02 文献下载
摘要：本申请实施例公开了一种人声和伴奏分离方法及相关产品，该方法包括：对混合音频进行傅里叶变换，得到所述混合音频的第一频谱图，所述混合音频为单声道音频，所述混合音频是由人声和伴奏进行混合得到的；将所述第一频谱图输入到神经网络，得到所述人声对应的第二频谱图以及所述伴奏对应的第三频谱图；根据所述第一频谱图对所述第二频谱图进行傅里叶反变换，得到所述人声；以及根据所述第一频谱图对所述第三频谱图进行傅里叶反变换，得到所述伴奏。
人声伴奏分离方法相关产品

[发明专利]音频处理方法、装置及存储介质-CN201910942091.3有效
发明人： 庄晓滨;林森 -专利权人：腾讯音乐娱乐科技（深圳）有限公司
申请日： 2019-09-30 - 公布日： 2022-11-29 - 主分类号： G10H1/36 文献下载
摘要：本发明实施例公开了一种音频处理方法、装置及存储介质。该方案通过获取具有目标音频标识的独唱音频和用户输入的合唱音频，获取独唱音频当中的第一伴奏音频响度与第一人声音频响度，根据第一伴奏音频响度对合唱音频的第二伴奏音频响度进行调整，并将调整后的第二伴奏音频替换至独唱音频中，得到半合唱音频，根据第一人声音频响度对合唱音频的第二人声音频响度进行调整，并将调整后的第二人声音频与半合唱音频进行合成。本申请实施例所提供的方案通过计算独唱音频当中的第一伴奏音频与第一人声音频响度，并以此调节合唱音频中的人声及伴奏，使得在将独唱作品转为合唱作品后，与独唱作品有较好的一致性。
音频处理方法装置存储介质

1
2
3
下一页»
尾页
共 43 条