[发明专利]歌声合成方法、装置及计算机可读存储介质在审
申请号: | 202010719140.X | 申请日: | 2020-07-23 |
公开(公告)号: | CN111862937A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 刘书君;敬大彦 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L13/04 | 分类号: | G10L13/04;G06N3/04;G06N3/08 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及人工智能,揭露一种歌声合成方法,包括:对所述乐谱信息进行建模抽取及编码处理,得到乐谱单元矩阵;训练预构建的第一神经网络模型,得到时长模型;利用所述时长模型对所述乐谱单元矩阵进行时长分析,得到乐谱时长矩阵;训练预构建的第二神经网络模型,得到声学模型;利用所述声学模型对所述乐谱时长矩阵进行频谱特征提取,得到频谱特征信息;对所述频谱特征信息进行声音合成处理,生成合成歌声。本发明还涉及区块链技术,模型训练所需的数据可存储在区块链中。本发明还提出一种歌声合成装置、电子设备以及一种计算机可读存储介质。本发明能够降低歌声数据存储资源的占用,提升歌声合成的灵活性。 | ||
搜索关键词: | 歌声 合成 方法 装置 计算机 可读 存储 介质 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202010719140.X/,转载请声明来源钻瓜专利网。
- 上一篇:电磁阀及质量流量控制器
- 下一篇:一种皮革加工处理设备及皮革加工处理方法
- 同类专利
- 一种语音词典生成方法、设备及计算机可读存储介质-202010136474.4
- 林凤绿;康魏;雷欣;李志飞 - 问问智能信息科技有限公司
- 2020-03-02 - 2023-10-27 - G10L13/04
- 本发明公开了一种语音词典生成方法、设备及计算机可读存储介质,所述方法包括:获得语音词典,所述语音词典包含若干语音词条,所述语音词条对应有发音信息;根据分类规则对所述若干语音词条进行分类,获得若干分类词典,每一个所述分类词典包含同一分类的语音词条。应用本发明实施例提供的词典生成方法,能够获得具有领域针对性的语音词典,解决了语音词典缺少领域细分和针对性差的问题。
- 音频生成方法及装置、存储介质-202010039094.9
- 刘佳泽;罗忠岚 - 广州酷狗计算机科技有限公司
- 2020-01-14 - 2023-10-27 - G10L13/04
- 本申请公开一种音频生成方法及装置、存储介质,属于电子技术应用领域。该方法包括:在音频配置界面中,接收用户触发的第一音频生成指令,该第一音频生成指令携带目标文本、第一音频参数和第一音乐标识,第一音乐标识指示第一背景音乐;根据第一音频参数,将目标文本转换为第一音频;根据第一音乐标识,从背景音乐库中获取第一背景音乐;将第一音频与第一背景音乐合成,得到第一目标音频。本申请有助于提高音频生成的灵活性。
- 信息处理方法、装置、车辆和计算机存储介质-202010589864.7
- 丁磊;郭刘飞;黄骏;周宏波;郭昊 - 华人运通(上海)云计算科技有限公司
- 2020-06-24 - 2023-10-20 - G10L13/04
- 本申请公开了一种信息处理方法,应用于车辆,所述车辆中安装有车载应用,并且所述车辆中安装有语音合成TTS引擎,包括:车载应用获取待转换信息,将所述待转换信息转换为携带目标声音风格的信息;所述车载应用将所述携带目标声音风格的信息发送给TTS引擎,以通过所述TTS引擎对所述携带目标声音风格的信息进行音频合成并输出合成的音频信息。
- 一种基于嵌入式系统的端到端语音合成网络-202111035763.6
- 李相 - 大连理工大学
- 2021-09-06 - 2023-10-13 - G10L13/04
- 本发明属于嵌入式计算机技术领域,提供一种基于嵌入式系统的端到端语音合成网络,文字通过编解码,生成梅尔谱图,然后将图片通过声码器转换成语音文件。同时,在保证语音质量没有显著衰减的情况下,提高推理速度,做到实时,最后部署在嵌入式平台上面。采用该端到端网络,使用最新神经网络的方法,在减少参数和模型计算量的情况下,能够将推理速度大幅提高,并且通过前馈一个韵律编码器,达到韵律可调的作用。将文字通过前端编解码部分,生成梅尔谱图,之后通过声码器转为语音文件。即端到端的方法。该方法能够高效实时的合成音频,从而部署在地铁嵌入式平台上面。
- 语音播放方法、装置、计算机设备及计算机可读存储介质-202010139967.3
- 张国超;王海瑞;苏少炜;陈孝良 - 北京声智科技有限公司
- 2020-03-03 - 2023-09-26 - G10L13/04
- 本公开提供了一种语音播放方法、装置、计算机设备及计算机可读存储介质,属于语音处理技术领域。所述方法包括:接收目标书籍的音频资源获取请求,基于目标书籍的角色对应的不同音色模型和目标书籍中不同角色对应的文本内容,获取目标书籍的音频资源,并基于获取到的音频资源进行语音播放。对于目标书籍中不同角色对应的文本内容,获取音频资源时使用的是角色对应的不同音色模型,进而可以在语音播放时使用不同的声音来对不同的角色对应的文本内容进行播放,从而能够使得不同角色的文本内容能够以不同的听觉效果来展示给用户,可以便于用户对目标书籍中各个角色进行区分,提高用户体验。
- 语音转换及相应的模型训练方法、装置、设备及存储介质-202011375355.0
- 王俊超;陈昌滨;袁俊;聂志朋 - 北京百度网讯科技有限公司
- 2020-11-30 - 2023-09-22 - G10L13/04
- 本申请公开了一种语音转换及相应的模型训练方法、装置、设备及存储介质,涉及机器学习与智能语音等人工智能技术领域。具体实现方案为:基于源语音的音频,提取源语音的特征信息;基于所述源语音的特征信息和要转换的目标音色信息,采用预先训练的语音转换模型,生成目标语音的声学特征信息;基于所述目标语音的声学特征信息,采用预先训练的声码器,合成目标语音的音频。本申请能够避免语音转换中信息的损失,有效地提高合成的目标语音的音频的准确性。
- 一种外呼应答方法、装置、设备及介质-202010235873.6
- 张晨 - 中国建设银行股份有限公司
- 2020-03-30 - 2023-08-22 - G10L13/04
- 本发明实施例公开了一种外呼应答方法、装置、设备及介质,所述方法包括:当外呼应答指令被触发时,获取所述外呼应答指令对应的待应答语音数据;对所述待应答语音数据进行语义理解,获得所述待应答语音数据对应的目标意图;根据所述目标意图确定所述待应答语音数据对应的目标应答策略,根据所述目标应答策略进行应答。本发明实施例提供的外呼应答方法通过对待应答语音数据进行意图识别,根据识别结果进行应答,实现了自动完成外呼流程,提高了外呼效率。
- 语音合成方法、装置、可读介质及电子设备-202010197181.7
- 殷翔;顾宇 - 北京字节跳动网络技术有限公司
- 2020-03-19 - 2023-08-18 - G10L13/04
- 本公开涉及一种语音合成方法、装置、可读介质及电子设备,包括:获取用户输入的待复制声音和目标模板,待复制声音为由用户发音的任意长度的声音片段;从待复制声音中提取得到待复制频谱数据;确定与目标模板对应的模板文字信息;根据待复制频谱数据和模板文字信息确定与目标模板和待复制声音中的音色对应的目标频谱数据。这样,能够根据用户输入的任意长度的声音片段即可实现对用户的声音进行复制,并由此来以用户的声音来对文字进行发声,进而实现对文字的朗读或对歌曲的演唱,既无需用户按照限定的内容进行语音输入,而且也无需用户进行长时间的语音输入,在保证声音复制效果的前提下简化了用户声音复制的复杂度。
- 语音合成-201780075142.6
- 文森特·波莱;恩科里·佐瓦托 - 赛伦斯运营公司
- 2017-10-03 - 2023-07-25 - G10L13/04
- 本发明的各方面涉及基于输入数据合成语音或其他音频。另外,本发明的各方面涉及使用一个或多个递归神经网络。例如,计算装置可以接收文本输入;根据文本输入可以确定特征;可以提供特征作为递归神经网络的输入;可以确定来自递归神经网络的隐藏层的一个或多个激活的嵌入数据;可以基于语音单元搜索确定语音数据,其中,语音单元搜索基于嵌入数据从数据库中选择语音单元;和使语音输出可以基于语音数据生成。
- 语音合成方法、装置及计算机可读存储介质-201910438778.3
- 彭话易;程宁;王健宗 - 平安科技(深圳)有限公司
- 2019-05-22 - 2023-07-14 - G10L13/04
- 本发明涉及人工智能技术领域,公开了一种语音合成方法,该方法包括:将源说话人的语音数据转换为文本内容,并将所述文本内容转化为文本向量;将所述文本向量转化为源说话人的梅尔语谱图;获取目标说话人的语音信号,并将所述目标说话人的语音信号转换为目标说话人的梅尔频率倒谱系数特征;将所述源说话人的梅尔语谱图以及所述目标说话人的梅尔频率倒谱系数特征输入至经过训练的语谱特征转换模型中,得到目标说话人的梅尔语谱图;及将所述目标说话人的梅尔语谱图转换为所述文本内容对应的语音并输出。本发明还提出一种语音合成装置以及一种计算机可读存储介质。本发明可以实现语音合成系统的音色转换。
- 一种广播电台智能天气预报系统及天气预报语音切分方法-202010253310.X
- 李广达 - 湖南声广科技有限公司
- 2020-04-02 - 2023-07-11 - G10L13/04
- 本发明公开了一种广播电台智能天气预报系统,包括录音单元、语音切分单元、语音数据库、信息读取单元、信息解析单元、语音合成单元。本发明还公开了一种天气预报语音切分方法,用于广播电台智能天气预报系统。本发明通过对语音资料采用声母语音片段的频率在8000赫兹以上为切分节点进行切分的方式,能够使被切分后的语音素材进行合成时语音更加柔和、不僵硬,不会出现卡顿和语音突变不协调的现象,具有较佳的发音效果,更接近人员的实时人工播放;通过从互联网中读取天气数据并进行播放处理工作,从而实现天气预报语音播放能够实时播放,数据准确并且及时,从而减少了人工进行语音播报的误差,同时减少人工语音播报的时间,节约了人工成本。
- 语音合成系统、方法、电子设备及介质-202010405986.6
- 周明康;罗超;胡泓 - 携程计算机技术(上海)有限公司
- 2020-05-14 - 2023-07-04 - G10L13/04
- 本发明公开了一种语音合成系统、方法、电子设备及介质,其中语音合成系统包括预处理模块、声学模型模块和声码器模块;声学模型模块包括编码器单元和解码器单元;编码器单元包括第一卷积层和第一LSTM层,解码器单元包括第二卷积层、第二LSTM层和全连接层,第一卷积层、第一LSTM层、第二卷积层和第二LSTM层的层数均小于6层;本发明大大减小了声学模型模块的占用空间,提高声学模型模块的数据处理速度及转换效率,从而解决了现有技术中语音合成系统中的声学模型的数据处理速度较慢,影响语音合成的转换效率的缺陷。
- 声码器的构建方法、语音处理方法及相关设备-202211573321.1
- 吴雨璇;宋伟;张政臣;吴友政 - 京东科技信息技术有限公司
- 2022-12-08 - 2023-06-23 - G10L13/04
- 本发明提供一种声码器的构建方法、语音处理方法及相关设备,包括利用样本集对生成器进行训练,确定训练完成的生成器;将生成器和与生成器训练得到的判别器组成作为声码器;训练过程为分别对第一特征向量对应的第一输出音频,及第二特征向量对应的第二输出音频进行处理,确定第一时域损失、第一频域损失、第二时域损失和第二频域损失;对第二特征向量对应的第三输出音频进行处理,确定第三频域损失;进而计算生成器的总损失;基于总损失训练生成器的网络。在本方案中,在对生成器进行训练时,通过计算多分辨率的时域损失和频域损失,进而计算生成器的总损失;通过上述方式能够加快声码器训练的收敛速度,以提高声码器语言处理质量。
- 用于生成语音的方法和装置-202010401740.1
- 官山山;刘晓丰;唐涛 - 北京百度网讯科技有限公司
- 2020-05-13 - 2023-06-20 - G10L13/04
- 本申请公开了用于生成语音的方法和装置,涉及云计算技术领域。具体实施方式包括:获取针对用户语音的话术,其中,该话术包括被标记的目标字符串;基于该目标字符串在该话术中的位置,将该话术切分为多个子话术,其中,该多个子话术包括该目标字符串对应的目标子话术,以及其它子话术;在子话术录音信息集合中,查找该多个子话术中的至少一个子话术所对应的录音信息;基于查找到的录音信息,生成用于回复该用户语音的语音。本申请的方案通过切分,查找子话术对应的录音信息,从而无需对整个话术进行实时合成,提高了语音交互的效率。
- 语音数据的获取方法、装置、设备及计算机可读存储介质-202111335375.X
- 王帅;晁阳;李东;陆遥 - 腾讯科技(深圳)有限公司
- 2021-11-11 - 2023-06-02 - G10L13/04
- 本申请公开了一种语音数据的获取方法、装置、设备及计算机可读存储介质,属于计算机技术领域。方法包括:获取多媒体资源和样本语音数据;基于所述样本语音数据,获取一阶特征向量和二阶特征向量,所述一阶特征向量用于表征所述样本语音数据的音色的平均特征,所述二阶特征向量用于表征所述样本语音数据的音色的标准差特征;基于所述一阶特征向量和所述二阶特征向量对所述多媒体资源进行处理,得到与所述样本语音数据的音色匹配的目标语音数据。该方法得到的目标语音数据的音色与样本语音数据的音色的匹配度较高,使得目标语音数据的音色保真度较高。
- 语音合成方法、系统、电子设备及存储介质-202310072854.X
- 陈杰;康世胤;吴志勇 - 深圳元象信息科技有限公司;清华大学深圳国际研究生院
- 2023-02-07 - 2023-06-02 - G10L13/04
- 本申请涉及语音合成技术领域,尤其涉及一种语音合成方法、系统、电子设备及存储介质。该语音合成方法基于预训练的语音合成模型实现,语音合成模型包括文本编码器模块、时长预测模块、解码器模块,方法包括:获取音素序列,并输入至语音合成模型;通过文本编码器模块将音素序列转换成均值序列,并输入至时长预测模块;通过时长预测模块将均值序列扩展复制,得到拓展后的均值序列;通过解码器模块将拓展后的均值序列去噪并转换为梅尔谱,以输出合成后的语音。本申请的语音合成方法,可以将语音转换成均值序列并去噪,经过去噪操作后,提高了语音合成速度,加快了解码器的运算速度,使得基于去噪扩散概率模型的语音合成模型能够应用在实际场景中。
- 语音合成模型的生成方法、装置、设备及存储介质-201910881032.X
- 王健宗;贺雯迪;彭话易;程宁 - 平安科技(深圳)有限公司
- 2019-09-18 - 2023-05-26 - G10L13/04
- 本发明提供一种语音合成模型的生成方法、装置、设备及存储介质,即所述处理器获取所述存储模块中的待训练语音合成模型,并确定初始化模型参数;所述处理器获取所述存储模块中的待合成语音数据,输入至预设标准语音合成模型得到第一合成结果,输入至所述待训练语音合成模型得到第二合成结果;基于所述第一合成结果,计算所述第二合成结果的损失值,并判断所述第二合成结果的损失值是否小于第一预设阈值;若所述处理器判定小于所述第一预设阈值,则初始化模型参数确定目标参数,生成目标语音合成模型。本发明避免基于上一个样本点作为下一个样本点的输入,提升了语音合成模型的训练速度,提高了语音合成模型的训练效率。
- 歌曲定制生成方法及其相应的装置、设备、介质-202011497877.8
- 刘研;周丽 - 广州华多网络科技有限公司
- 2020-12-17 - 2023-05-19 - G10L13/04
- 本申请公开一种歌曲定制生成方法及其相应的装置、设备、介质,其中,所述方法包括:基于用户应答返回的自然短语进行语义分析,确定与其相应的以多个标签词描述的主题;根据所述主题所具有的标签词从歌曲库中匹配出预选配曲,并生成可播放格式的歌词内容;根据所述歌词内容与预选配曲以预设人声模型进行歌唱合成,生成可播放的流媒体;推送所述流媒体给用户播放。本申请能够借助简单的自然短语自动创作歌词内容并生成可以直接播放的曲音同步的歌曲,特别适用于在线娱乐领域。
- 对话归属的确定方法、装置、电子设备及存储介质-201911060501.8
- 潘俊杰 - 北京字节跳动网络技术有限公司
- 2019-11-01 - 2023-05-09 - G10L13/04
- 本实施例提供的对话归属的确定方法、装置、电子设备及存储介质,通过获取文本信息,识别获得所述文本信息中的至少一个对话的对话信息和所述文本信息中出现的至少一个人物的人物信息;将所述对话信息和所述人物信息输入训练完毕的对话归属识别模型;输出每一对话和各人物之间的关联度,并根据各关联度确定每一对话所归属的人物的方案,从而可自动识别文本信息中每一对话所归属的人物,进而便于后续基于语音转换技术将不同人物的对应的对话转换为相应人物的语音,提高了处理和转换效率,降低了成本。
- 一种对空语音通信杂音模拟干扰方法和系统-201810605519.0
- 周漩;邹伟;张晋武;张丕旭;周卫平;胡术;费向东;何世波;马增辉 - 中国人民解放军91977部队
- 2018-06-13 - 2023-04-18 - G10L13/04
- 本发明提供了一种对空语音通信杂音模拟干扰方法和系统,涉及飞行模拟训练技术领域,通过接收语音特情信息,判断模拟干扰语音类型,当干扰语音类型为静音干扰时,选取待干扰语音信息中任一语音包作为静音起始位置,并将若干个语音包进行静音处理,生成并发送静音语音干扰信息,当干扰语音类型为电流干扰时,通过电流干扰等级确定第一衰减因子,并根据待干扰语音包中任一帧语音数据、电流干扰时长和电流干扰数据,生成并发送电流语音干扰信息。通过本发明的技术方案,提高了模拟干扰语音合成的可靠性,优化了飞行指挥训练系统的功能,提高了管制员模拟训练过程中的真实性,有利于提高管制员模拟训练的效果。
- 一种基于车内用户信息生成自然语言的方法及装置-202211543220.X
- 李龙飞;刘杰;张炜玮;林孟超;陈彩可 - 中国第一汽车股份有限公司
- 2022-12-02 - 2023-04-11 - G10L13/04
- 本申请公开了一种基于车内用户信息生成自然语言的方法及装置。所述基于车内用户信息生成自然语言的方法包括:获取车内人员语音信息;获取车内人员基本信息;根据车内人员语音信息获取待播放槽位信息;根据所述车内人员基本信息以及车内人员语音信息获取待播放模板信息;根据所述待播放模板信息与所述待播放槽位信息生成待播放自然语言信息。本申请所提供的基于车内用户信息生成自然语言的方法根据车内人员基本信息来获取待播放槽位信息,从而根据不同的车内人员基本信息来生成不同的待播放自然语音信息,从而使得语音交互更为人性化。
- 生成合成语音输入-202211190699.3
- 纳姆迪·卡卢;费尔南多·费尔南德斯;尤里·菲尔斯特;埃尔温·詹森;拉凯什·伊耶;杨凌峰 - 谷歌有限责任公司
- 2022-09-28 - 2023-04-04 - G10L13/04
- 本申请涉及生成合成语音输入。一种基于接收到的文本和一个或多个仿真语音参数来合成语音的系统和方法。使用指示合成语音的一个或多个特征的一个或多个仿真语音参数来接收文本。基于接收到的参数来生成合成语音音频。合成语音音频数据被提供给仿真麦克风组件,该仿真麦克风组件将合成音频提供给自动语音识别器。自动语音识别器利用一个或多个语音识别模型来基于合成语音音频数据来生成经转换的文本。
- 音频处理方法及相关装置-202211471824.8
- 陈梦;庄晓滨;赵伟峰;姜涛;胡鹏 - 腾讯音乐娱乐科技(深圳)有限公司
- 2022-11-22 - 2023-03-28 - G10L13/04
- 一种音频处理方法及相关装置,该方法包括:获取歌曲训练样本的曲谱文件和干声音频;根据曲谱文件确定歌曲训练样本的音节序列和音符序列,以及根据干声音频确定歌曲训练样本的第一基频序列和发音序列;将歌曲训练样本的音节序列和音符序列输入初始基频预测模型得到第二基频序列,并根据第二基频序列和第一基频序列对初始基频预测模型进行训练得到目标基频预测模型;将歌曲训练样本的第一基频序列和发音序列输入初始声学模型得到第一声学特征,并根据第一声学特征和第二声学特征对初始声学模型进行训练得到目标声学模型,目标声学模型和目标基频预测模型用于生成待合成歌曲的合成音频。采用本申请的方法,可以提高合成歌曲的音质。
- 语音合成方法、模型训练方法、装置和计算机设备-201810828220.1
- 吴锡欣;王木;康世胤;苏丹;俞栋 - 腾讯科技(深圳)有限公司
- 2018-07-25 - 2023-03-24 - G10L13/04
- 本申请涉及一种语音合成方法、模型训练方法、装置和计算机设备,所述方法包括:获取待处理的语言学数据;对所述语言学数据编码,得到语言学编码数据;获取用于语音特征转换的嵌入向量;所述嵌入向量,根据对应相同参考语言学数据的参考合成语音数据和参考语音数据之间的残差生成;根据所述嵌入向量对所述语言学编码数据进行解码,获得经过语音特征转换的目标合成语音数据。本申请提供的方案可以避免因对数梅尔频谱中的语义特征影响合成语音的质量的问题。
- 合成音频检测方法、系统、移动终端及存储介质-202010479131.8
- 李稀敏;曾志先;叶志坚;肖龙源 - 厦门快商通科技股份有限公司
- 2020-05-29 - 2023-02-14 - G10L13/04
- 本发明提供了一种合成音频检测方法、系统、移动终端及存储介质,该方法包括:根据真实音频样本对CNN网络进行训练得到真实化特征转换器;控制真实化特征转换器对训练集数据进行特征转换得到真实化特征,将真实化特征和对应的标签信息输入LCNN网络进行模型训练得到合成音频检测模型;将待检测音频输入真实化特征转换器得到待检测特征;控制合成音频检测模型对待检测特征进行检测得到检测结果。本发明利用真实音频样本的特征学习CNN的模型的设计,以得到真实化特征转换器,该真实化特征转换器能将给定的特征转换为接近真实语音特征的特征,从而增强了训练集数据中真实语音和合成语音之间的区别,提高了合成音频检测模型训练的准确性。
- 一种语音获取方法、装置以及计算机可读存储介质-202010060939.2
- 李永强;雷欣;李志飞 - 出门问问创新科技有限公司;大众汽车(中国)投资有限公司
- 2020-01-19 - 2023-01-31 - G10L13/04
- 本发明公开了一种语音获取方法、装置以及计算机可读存储介质,包括:获取文本信息;将所获取的文本信息进行拆分,得到多个拆分文本;将所得到的多个拆分文本逐一判断是否存在于第一语音缓存中;若判定所述第一语音缓存中存在所述拆分文本,则从第一语音缓存中提取对应于所述拆分文本的语音信息。由此,在接收到文本信息之后,可快速地反馈对应的语音信息,减少语音合成系统的计算开销,大大提高了语音获取的效率。
- 基于SN的多对多说话人转换方法-201910268565.0
- 李燕萍;徐东祥;张燕;曹盼 - 南京邮电大学
- 2019-04-04 - 2023-01-31 - G10L13/04
- 本发明公开了一种基于SN的多对多说话人转换方法,包括训练阶段和转换阶段,使用了STARGAN‑ResNet与SN相结合来实现语音转换系统,利用SN(Switchable norm)解决STARGAN‑ResNet中数据标准化过程中的噪声问题,通过为深度网络中的每一个标准化层确定合适的标准化操作来改善STARGAN‑ResNet的数据标准化过程中产生的噪声问题,能够较好地提升模型对于语义的学习能力以及语音频谱的合成能力,从而较好地提升转换后语音的个性相似度和语音质量,克服转换后语音相似度与自然度较差的问题,实现了一种高质量的语音转换方法。
- 对发话设备的发话进行控制的方法、对发话设备的发话进行控制的服务器、发话设备以及程序-202180005792.X
- 鸟饲将史;中井健太郎;占部裕树 - 松下知识产权经营株式会社
- 2021-06-15 - 2022-12-27 - G10L13/04
- 服务器(10)使终端装置(30)显示设定用户界面,接收禁止时间段设定指令。针对对象设备,基于禁止时间段设定指令来设定禁止时间段。在服务器(10)判断为要使对象设备发话的时间不属于禁止时间段时,使对象设备发话。
- 音频处理模型的训练方法及装置、音频处理方法及装置-202110696106.X
- 刘若澜;文学;卢春晖;楼晓雁;宋黎明 - 北京三星通信技术研究有限公司;三星电子株式会社
- 2021-06-23 - 2022-12-23 - G10L13/04
- 提供一种音频处理模型的训练方法及装置、音频处理方法及装置。该音频处理模型的训练方法包括:对训练数据进行特征提取,得到训练数据的特征;基于训练数据的特征预测训练数据的颤音程度,得到训练数据的预测颤音程度;基于训练数据的预测颤音程度预测训练数据的基频,得到训练数据的预测基频;基于训练数据的预测颤音程度和预测基频以及训练数据的真实颤音程度和真实基频对音频处理模型进行训练。该音频处理方法包括:提取音频数据的特征;基于音频数据的特征预测音频数据的颤音程度;基于音频数据的颤音程度预测音频数据的基频;基于音频数据的基频对音频数据进行处理。通过使用该音频处理方法及装置,可提高音频处理的效果。
- 一种TTS语音在H5网页中以后台流形式播放的方法-202210735387.X
- 吴启豪;谢舒安;何熠;杨冰 - 联通沃悦读科技文化有限公司;联通在线信息科技有限公司
- 2022-06-27 - 2022-12-06 - G10L13/04
- 本发明公开了一种TTS语音在H5网页中以后台流形式播放的方法,包括步骤:一、预热服务端预先将热门书籍的文本信息在线转成TTS语音合成文件,存放在最近的CDN服务器节点,并将存放地址缓存在redis中;二、前端调用本地听书播放器向后台听书服务端请求文章播放流地址;三、后台听书服务端接收到前端请求后,从缓存目录中获取对应书籍的语音文件,判断是否热点书籍,当判断为是热点书籍时,执行步骤四;否则,当判断为不是热点书籍时,执行步骤五;四、热点书籍播放方式;五、非热点书籍播放方式。本发明能够很好的解决后台播放模式下的连接保持和熄屏模式下的进程保活难点,能够很好的解决语音合成的快速响应和稳定传输难点。
- 专利分类