[发明专利]一种基于变分自编码器的声码器实现方法及装置在审

申请号：	202010541602.3	申请日：	2020-06-15
公开（公告）号：	CN111724809A	公开（公告）日：	2020-09-29
发明（设计）人：	刘雨松	申请（专利权）人：	苏州意能通信息技术有限公司
主分类号：	G10L25/24	分类号：	G10L25/24;G10L25/30;G10L19/00;G10L19/16;G10L13/02
代理公司：	江苏昆成律师事务所 32281	代理人：	刘尚轲
地址：	215000 江苏省苏州***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	为了解决现有技术采用自回归方式的音频生成效率低的问题，提供一种基于变分自编码器的声码器实现方法及装置，包括训练过程和应用过程，其特征在于，训练过程包括步骤：将音频源信号输入预处理模块，得到梅尔谱图；再将梅尔谱图输入条件信息模块，得到条件信息；再将条件信息和音频源信号共同输入编码器中，得到中间隐藏信息；再将中间隐藏信息和条件信息共同输入解码器中，得到输出音频；进行损失函数计算并进行参数优化，当总损失函数值低于某个阈值，训练完成；应用过程包括步骤：将前端得到的频谱图输入条件信息模块得到条件信息，将条件信息和已知的标准高斯白噪声输入解码器，得到输出音频。
搜索关键词：	一种基于编码器声码实现方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

暂无信息

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于苏州意能通信息技术有限公司，未经苏州意能通信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/202010541602.3/，转载请声明来源钻瓜专利网。

上一篇：一种基于广义观测器的四旋翼无人机故障估计方法
下一篇：一种存储管理软件的模块化提供方法和装置

同类专利

基于语音情绪识别的客户满意度分析方法及装置-202210977237.X
发明人：徐伟;王文生;陈勇;高琴;鲁惟翔;苏醒;林儿;陈巧俊;谢文杰;傅一平 -专利权人：中国移动通信集团浙江有限公司;中国移动通信集团有限公司
申请日： 2022-08-15 - 公布日： 2023-10-27 - 主分类号： G10L25/24
摘要：本发明实施例涉及移动通信技术领域，公开了一种基于语音情绪识别的客户满意度分析方法及装置，该方法包括：对待处理语音信号进行特征提取，获取所述待处理语音的语音情绪特征；根据所述语音情绪特征基于个体相关系数计算三维情绪识别量，并根据所述三维情绪识别量预估客户满意度；计算所述待处理语音信号的语音能量均值和节拍均值；根据预估的客户满意度、所述语音能量均值以及所述节拍均值进行客户满意度总体评价。通过上述方式，本发明实施例能够更加客观的反映客户对电话客服的服务满意度，有利于电话客服和客户建立良好的长久的关系，促进企业长期利益的实现。

基于说话人特征的鉴伪模型训练方法-202310931489.3
发明人：陈庭威;唐帅;吴凌翔;王金桥 -专利权人：武汉人工智能研究院;中国科学院自动化研究所
申请日： 2023-07-25 - 公布日： 2023-10-27 - 主分类号： G10L25/24
摘要：本发明公开了一种基于说话人特征的鉴伪模型训练方法，包括以下步骤，S1、提取输入音频中的第一特征与第二特征；S2、将第一特征输入说话人特征提取网络，得到说话人特征；将第二特征输入鉴伪特征提取网络，得到鉴伪特征；S3、将说话人特征和鉴伪特征进行概率加权得到融合特征；S4、将融合特征输入分类器以得到输入音频的真伪结果；S5、建立损失函数，重复步骤S1～S4，以对鉴伪模型进行迭代训练；并且在训练过程中冻结说话人提取网络的所有权重，而仅更新鉴伪特征提取网络的权重。该方法生成的鉴伪模型具有良好的鲁棒性和泛化性，且标注成本低。

语音风格迁移模型的训练方法、装置、设备及存储介质-202110192901.5
发明人：孙奥兰;王健宗;程宁 -专利权人：平安科技（深圳）有限公司
申请日： 2021-02-20 - 公布日： 2023-10-17 - 主分类号： G10L25/24
摘要：本申请涉及人工智能技术领域，公开了一种语音风格迁移模型的训练方法、装置、设备及存储介质，该方法包括：通过基于预置神经网络模型，根据第一梅尔语谱信息和第二梅尔语谱信息得到第一更新参数；将第一梅尔语谱信息和第二梅尔语谱信息输入到预置分类器，得到对应第一风格奖励参数；通过第二梅尔语谱信息确定第一内容奖励参数；根据第一风格奖励参数和第一内容奖励参数，获取第二更新参数；通过第一更新参数和第二更新参数对预置神经网络模型的模型参数进行更新生成对应的语音风格迁移模型，实现音频到音频的风格迁移，且分类器可以实现细粒度的风格迁移，还从风格奖励和内容奖励两个维度完成源音频到目标音频的转换，无需收集大量目标音频语料。

一种虚拟音色转换方法、装置、系统及存储介质-202310968082.8
发明人：郭丹丹 -专利权人：平安银行股份有限公司
申请日： 2023-07-31 - 公布日： 2023-10-13 - 主分类号： G10L25/24
摘要：本发明提供了一种虚拟音色转换方法、装置、系统及存储介质，涉及金融科技技术领域。所述虚拟音色转换方法包括：基于目标音色向客户端推送服务应答信息；根据人工客服转接指令连接对应人工客服端；获取交互语音数据实时进行转换，得到与交互语音数据对应的转换语音数据；将转换语音数据推送至所述客户端。本发明的虚拟音色转换方法能够保留说话人的语速语调语音内容，对于实时对话场景仅进行音色迁移，不需将语音转成文本，再将文本转换为语音，缩短了转换时长且提升响应速度；将人工客服和AI外呼机器人音色统一，做到无感人机切换，大大提升客户体验。

基于CFCC特征的鲁棒音频复制粘贴篡改检测方法及装置-202310972171.X
发明人：史沧红;王冬宇;李孝杰;李俊容;牛宪华;熊玲;陈荣 -专利权人：西华大学
申请日： 2023-08-03 - 公布日： 2023-10-13 - 主分类号： G10L25/24
摘要：本发明公开基于CFCC特征的鲁棒音频复制粘贴篡改检测方法及装置，涉及数字音频信号处理技术领域，拟解决现有技术在检测经过后处理的复制移动音频信号时，检测精度不高的问题；本发明包括S1：通过语音检测活动区分语音信号中的有声段和无声段；S2：提取每个有声段的耳蜗倒谱系数特征；S3：利用皮尔逊相关系数比较每个有声段耳蜗倒谱系数特征之间的相似度；本发明在低信噪比的情况下具有更高的检测精度，进而具有更好的鲁棒性。

融合频带自向下注意力机制的电厂设备状态听觉监测方法-202211214042.6
发明人：陈满;姚建超;赵增涛;张晖;陈弘昊;张豪;窦博文;李重阳;林伟杰;郑春;叶超欣;黄璐琦;吴盛彪;徐添;何健辉 -专利权人：南方电网调峰调频发电有限公司储能科研院
申请日： 2022-09-30 - 公布日： 2023-09-29 - 主分类号： G10L25/24
摘要：本发明公开了融合频带自向下注意力机制的电厂设备状态听觉监测方法。所述方法包括以下步骤：设置声音传感器，获取电气设备运行的声音；对电气设备运行的声音进行预处理，得到预处理后的声音数据；对预处理后的声音数据进行频带自向下注意力机制处理；进行卷积神经网络识别，得到识别结果。本发明提出的方法解决了传统声音监测方法需要深度挖掘不同电气设备运行状态声音特征从而导致难度大、效率低的问题；本发明提出的方法解决了机器学习方法直接套用从而导致样本需求大、训练次数多的问题；本发明提出的新的频带自向下注意力机制，结合电气设备运行声音的特点，对梅尔频谱图中集中向下蔓延的区域惊醒关注，识别效果更好，训练次数更少。

音色模板定制方法及其装置、设备、介质、产品-202111092287.1
发明人：黄杰雄 -专利权人：广州酷狗计算机科技有限公司
申请日： 2021-09-17 - 公布日： 2023-09-22 - 主分类号： G10L25/24
摘要：本申请公开音色模板定制方法及其装置、设备、介质、产品，所述方法包括：获取音频采样数据，从中提取出人声发音部分相对应的梅尔频谱信息；调用预训练至收敛状态的音色提取模型从所述梅尔频谱信息中提取出表征该音频采样数据的音源对象的音色的向量矩阵集，该向量矩阵集包括时域上的多个向量矩阵；求取所述向量矩阵集中多个向量矩阵之间的均值向量矩阵作为该音源对象的声纹特征信息；生成所述音源对象相对应的音色模板，所述音色模板包括音源对象的命名标识及由该命名标识所指向的所述声纹特征信息。本申请能够从音频数据中有效地综合并抽象出表征音源对象的音色的声纹特征信息，有助于辅助音乐创作。

一种音频文件的声场分析方法及装置-202210879403.2
发明人：夏妍;林锋 -专利权人：镁佳(北京)科技有限公司
申请日： 2022-07-25 - 公布日： 2023-09-19 - 主分类号： G10L25/24
摘要：本发明提供了一种音频文件的声场分析方法及装置，其中，音频文件的声场分析方法包括：获取待识别音频文件；将待识别音频文件划分为若干音频数据，并对每一音频数据进行合成器含量计算，得到合成器含量计算结果；对待识别音频文件进行伴奏人声比计算，得到伴奏人声比计算结果；判断合成器含量计算结果是否满足合成器含量阈值，以及伴奏人声比计算结果是否满足伴奏人声比阈值；当合成器含量计算结果、伴奏人声比计算结果分别满足各自阈值时，判定待识别音频文件的声场属性为声场窄。在准确计算得到合成器含量以及伴奏人声比的同时，还可以将音频文件的空间感进行有效表征，进而通过音频文件的内在属性对音频文件的调节进行准确指导。

一种机车风机故障检测方法及装置-202310768392.5
发明人：孟宪国;杨国志;孙泽君;李哲;孙飚;焦杨;丁颖 -专利权人：国能铁路装备有限责任公司
申请日： 2023-06-27 - 公布日： 2023-09-12 - 主分类号： G10L25/24
摘要：本申请提供的一种机车风机故障检测方法及装置，方法包括：获取待测机车风机的实时音频信息；从所述实时音频信息汇总提取梅尔顿频率倒谱系数；将所述梅尔顿频率倒谱系数输入预训练的高斯混合模型，得到对应的相似度评分；根据所述相似度评分与预先设定的相似度阈值，确定所述待测机车风机的检测结果；若所述待测机车风机的检测结果为所述存在具体故障类别，则基于所述相似度评分，与具体故障类别进行匹配，输出具体故障类别名称。从而能够在机车运行的复杂环境下，通过音频诊断算法对实时音频信息进行提取和识别，得到对应的检测结果。

音频接收端的啸叫检测方法、系统、解码方法及解码器-202310769132.X
发明人：李强;王尧;叶东翔;朱勇 -专利权人：百瑞互联集成电路（上海）有限公司
申请日： 2023-06-27 - 公布日： 2023-09-12 - 主分类号： G10L25/24
摘要：本申请公开了一种音频接收端的啸叫检测方法、系统、解码方法及解码器，属于蓝牙音频技术领域。该方法包括：在音频解码过程中确定音频帧的第一谱系数；根据第一谱系数计算倒谱系数，并对倒谱系数进行优化；将优化后的倒谱系数变换得到第二谱系数，并根据第二谱系数进行啸叫检测。本申请在根据谱系数进行啸叫检测之前，首先根据谱系数进行倒谱系数的计算，然后对倒谱系数进行优化，避免其他因素对啸叫检测产生影响，然后将优化后的倒谱系数转换得到谱系数，再进行啸叫检测，提高啸叫检测的准确性。

音频生成方法、声码器、电子设备及存储介质-202310923000.8
发明人：张斌 -专利权人：腾讯音乐娱乐科技（深圳）有限公司
申请日： 2023-07-25 - 公布日： 2023-09-05 - 主分类号： G10L25/24
摘要：本申请公开一种音频生成方法、声码器、电子设备及存储介质。音频生成方法由神经网络型声码器实施，该音频生成方法包括：获取待生成音频的梅尔谱图；将所述梅尔谱图输入神经网络型声码器，其中所述神经网络型声码器包括基频提取模块、波发生模块和生成器网络模块；由所述基频提取模块从所述梅尔谱图中提取多个音频帧的基频音调值，由所述波发生模块将多个所述基频音调值对应的周期性波信号进行融合得到融合声源信号，由所述生成器网络模块利用融合声源信号和梅尔谱图生成目标音频。根据本申请实施例，能够提高音频音质和自然度。

端到端提取BNF特征的方法、网络模型、训练方法及系统-202111443128.1
发明人：司马华鹏;毛志强;孙雨泽 -专利权人：南京硅基智能科技有限公司
申请日： 2021-11-30 - 公布日： 2023-09-05 - 主分类号： G10L25/24
摘要：本申请公开一种端到端提取BNF特征的方法、网络模型、训练方法及系统，其中，网络模型包括循环网络模块和编码模块：所述循环网络模块，用于输入源说话人音频的梅尔频率倒谱系数特征，输出下采样特征；所述编码模块，用于输入所述下采样特征，基于自注意力算法和深度卷积学习，得到第一特征，以及对所述第一特征全连接处理，输出所述源说话人音频的BNF特征，其中，所述第一特征包括所述源说话人音频的帧与帧之间的全局依赖关系和局部依赖关系。本申请的网络模型，可以实现端到端提取BNF特征，时效性更佳，不会叠加中间误差，从而保证提取的BNF特征的准确性。

性别识别模型处理方法、装置、计算机设备及存储介质-202310368697.7
发明人：陶民泽 -专利权人：平安健康保险股份有限公司
申请日： 2023-04-06 - 公布日： 2023-08-22 - 主分类号： G10L25/24
摘要：本申请实施例属于人工智能领域，涉及一种性别识别模型处理方法、装置、计算机设备及存储介质，方法包括：获取带有性别标签的训练语音，获取其基频参数和梅尔频率复合特征，梅尔频率复合特征包括梅尔频率倒谱系数及其对应的一阶差分参数和二阶差分参数；将基频参数和梅尔频率复合特征输入初始性别识别模型，得到预测性别；基于基频参数确定假设性别，并根据性别标签、假设性别和预测性别所构成的性别组合类型计算模型损失，以根据模型损失调整模型，直至训练停止得到性别识别模型；将待识别用户的用户语音输入性别识别模型，得到性别识别结果。本申请还涉及区块链技术，训练语音可存储于区块链中。本申请提高了性别识别的准确性。

基于自注意力的音频美化方法、装置、设备及存储介质-202310614023.0
发明人：张旭龙;王健宗;程宁;季圣鹏 -专利权人：平安科技（深圳）有限公司
申请日： 2023-05-26 - 公布日： 2023-08-18 - 主分类号： G10L25/24
摘要：本发明公开了一种基于自注意力的音频美化方法，该方法包括获取待处理音频；获取音频模型，对所有待处理音频进行内容提取，得到音频内容；对所有待处理音频进行音色提取，得到音频音色；对所有所述待处理音频进行能量提取，得到音频能量；将音频内容、音频音色和音频能量进行连接，得到音频特征；通过音频模型编码端对音频特征进行编码处理，得到编码特征；获取标准音频特征以及音频音高，通过音频模型解码端对标准音频特征、编码特征以及音频音高进行解码，得到美化音频。本发明通过在训练过程中采用训练加测试，使得整体的模型具有轻量化。通过引入位置嵌入和注意力机制，提高了模型的鲁棒性。引入能量特征并隐形表示，改善了音频质量。

音效设置方法、装置、设备以及计算机可读存储介质-202110945754.4
发明人：包静;曾轶 -专利权人：咪咕音乐有限公司;咪咕文化科技有限公司;中国移动通信集团有限公司
申请日： 2021-08-17 - 公布日： 2023-08-18 - 主分类号： G10L25/24
摘要：本发明公开了一种音效设置方法、装置、设备以及计算机可读存储介质，所述方法包括：获取用户的目标音频，提取所述目标音频的音频特征参数，所述目标音频包括用户播放的歌曲的音频或者所述用户所在的环境音频；将所述音频特征参数输入预设的音效设置模型，所述音效设置模型由用户的历史音频训练得到；获取所述音效设置模型输出的各个预设音效的概率值，根据所述概率值在所述预设音效中选取所述目标音频对应的目标音效，以按照所述目标音效播放音频数据或者视频数据。本发明提高了用户的听歌体验。

一种含头部运动姿态的语音驱动说话人脸视频合成方法-202310540049.5
发明人：李永源;魏明强;祝阅兵 -专利权人：南京航空航天大学
申请日： 2023-05-15 - 公布日： 2023-08-15 - 主分类号： G10L25/24
摘要：本发明公开了一种含头部运动姿态的语音驱动说话人脸视频合成方法，包括：获取设计所需的语音和图像数据；对语音和图像数据进行预处理；对提取的语音特征进行内容解耦，结合AudioVC网络分离内容表征，得到与说话人有关内容信息；对人脸图像提取关键点信息，并对得到的人脸关键点作对齐操作，移除说话人有关身份信息。本发明通过在神经网络编解码数据特征的基础上利用人脸关键点信息作为中间向量表示分别解耦语音和图像中的内容表征和身份表征，通过设计多个判别器分别从口型一致性和前后图像连续性方面约束重建的说话人脸图像，两阶段的精细化神经网络结构，可合成高自然度，口型同步且含头部运动姿态的说话人脸视频。

基于GAN的语音对抗样本生成方法-202010249328.2
发明人：王让定;王冬华;董理;严迪群 -专利权人：宁波大学
申请日： 2020-04-01 - 公布日： 2023-08-11 - 主分类号： G10L25/24
摘要：本发明涉及一种基于GAN的语音对抗样本生成方法，其特征在于：所述方法包括，对原始语音数据样本x进行预处理；将预处理后的原始语音数据样本x输入生成器G，得到对抗扰动G(x)，使用公式(1)构建对抗样本，公式(1)为xadv＝x+G(x)；将对抗样本xadv输入到判别器D以及经过梅尔倒谱系数MFCC特征提取器后输入到目标网络f中；计算目标网络的损失lf、判别器的对抗损失lGAN、铰链损失lhinge、均方差损失l2以及判别器的损失lD，由此得到生成器G训练时的损失函数l；将S4获得的损失函数l通过梯度反传更新生成器和判别器的参数，并通过公式(10)得到最佳生成器，公式(10)为将原始样本x加载到由S5得到的最佳生成器中，构建得到相应的对抗样本。本发明能有效生成最小扰动，且能确保语音质量。

歌声美化方法、装置、电子设备及计算机可读存储介质-202310595670.1
发明人：张旭龙;王健宗;程宁;茹港徽 -专利权人：平安科技（深圳）有限公司
申请日： 2023-05-24 - 公布日： 2023-08-08 - 主分类号： G10L25/24
摘要：本申请涉及人工智能技术领域，提供了一种歌声美化方法、装置、电子设备及计算机可读存储介质，方法包括：获取待美化歌声音频；对待美化歌声音频进行音频数据化处理得到待美化歌声梅尔频谱；基于音高调整网络模型对待美化歌声梅尔频谱进行音高调整处理得到音高特征信息；以及基于声乐提升网络模型对待美化歌声梅尔频谱进行声乐调整处理得到声乐特征信息；以及基于音色调整网络模型对待美化歌声梅尔频谱进行音色抽取处理得到音色特征信息；对音高特征信息、声乐特征信息和音色特征信息进行融合处理，得到歌声优化梅尔频谱；对歌声优化梅尔频谱进行转换处理得到歌声优化音频。通过上述技术方案能够快速灵活实现歌声美化处理。

模型生成方法、装置、智能终端及计算机可读存储介质-202210102619.8
发明人：陈崇明 -专利权人： TCL科技集团股份有限公司
申请日： 2022-01-27 - 公布日： 2023-08-08 - 主分类号： G10L25/24
摘要：本发明公开了一种模型生成方法、装置、智能终端及计算机可读存储介质，方法包括：对获取的原始音频进行预处理，得到候选音频；确定候选音频对应的第一对齐信息和第二对齐信息；根据候选音频、第一对齐信息以及第二对齐信息确定目标音频；根据目标音频和第一对齐信息对预设第一网络模型进行训练，生成目标时长预测模型。采用本发明能够解决现有的对齐工具获得的对齐信息不准确的问题。

一种基于双注意力和数据增强的哭声检测模型训练方法-202310656428.0
发明人：刘鹏 -专利权人：成都启英泰伦科技有限公司
申请日： 2023-06-05 - 公布日： 2023-08-08 - 主分类号： G10L25/24
摘要：本发明公开了一种基于双注意力和数据增强的哭声检测模型训练方法，包括以下步骤:S1.构建原始哭声数据集；S2.对原始哭声数据集的数据进行数据增强；S3.构建完整哭声数据集；S4.构建哭声检测模型，提取完整哭声数据集中音频的梅尔倒谱系数特征作为模型输入数据，进行迭代训练；S5.改变模型输入数据，重复步骤S4，直至模型收敛，得到哭声检测模型。本发明改善了现有哭声检测方法容易误检测和训练数据不足影响检测准确率的问题，有效提升哭声检测模型性能和检测正确率。

一种基于特征预训练的深度学习分类的声音数据分类方法-202111010607.4
发明人：王艳;候丹丹;龚杰;李宝清;袁晓兵 -专利权人：中国科学院上海微系统与信息技术研究所
申请日： 2021-08-31 - 公布日： 2023-08-08 - 主分类号： G10L25/24
摘要：本发明涉及一种基于特征预训练的深度学习分类的声音数据分类方法，包括：获取P通道的声音数据，按帧长L将所述P通道的声音数据截取为若干段声音样本，每段所述声音样本包括帧长为L的P通道声音样本数据和截取数据的分类类别；对所述帧长为L的P通道声音样本数据进行K倍降采样，得到L/K个点的P通道声音样本；按帧长L提取所述P通道的声音数据的MFCC特征；构建卷积神经网络，通过所述若干段声音样本和P通道的声音数据的MFCC特征来对所述卷积神经网络进行两次训练，得到训练好的卷积神经网络；通过训练好的卷积神经网络来识别输入声音信号的类别。本发明的卷积神经网络能够对输入的声音信号类别进行有效分类。

口型驱动模型训练方法、装置、电子设备和存储介质-202310492252.X
发明人：杜宗财;范锡睿;赵亚飞;张世昌;郭紫垣;王志强;陈毅 -专利权人：北京百度网讯科技有限公司
申请日： 2023-05-04 - 公布日： 2023-07-25 - 主分类号： G10L25/24
摘要：本公开提供了一种口型驱动模型训练方法、装置、电子设备和存储介质，涉及计算机技术领域，尤其涉及人工智能、语音技术及数字人技术领域。具体实现方案为：对样本音频流进行特征提取，得到每一音频帧对应的时序特征；将连续预设数量个音频帧的时序特征分别输入主学习网络和辅助学习网络，获取主学习网络输出的第一口型驱动参数以及辅助学习网络输出的第二口型驱动参数；计算第一损失函数值、第二损失函数值和第三损失函数值；基于第一损失函数值、第二损失函数值和第三损失函数值对主学习网络进行训练，将训练完成的主学习网络作为口型驱动模型。应用本公开实施例可以提高三维人脸模型口型的灵动性。

一种歌声合成模型的训练方法、装置、介质及电子设备-202310418617.4
发明人：李太豪;郑书凯;汪芬 -专利权人：之江实验室
申请日： 2023-04-14 - 公布日： 2023-07-21 - 主分类号： G10L25/24
摘要：本说明书公开了一种歌声合成模型的训练方法、装置、介质及电子设备，包括：通过预先收集的歌曲的歌曲数据，训练待训练的歌声合成模型。在训练时，先根据歌曲的歌词数据，确定歌曲的音素，再将音素与歌谱数据进行拼接，并将拼接结果输入待训练的歌声合成模型的旋律预测层，得到歌曲的第一旋律分布。之后，将确定歌曲出的第一梅尔谱输入歌声预测层，得到预测音频以及第二旋律分布。然后，根据第一旋律分布与第二旋律分布的差异，音频数据与预测音频的差异，确定目标损失，并以目标损失最小为优化目标，对待训练的歌声合成模型进行训练。提高训练完成的歌声合成模型的采样率，使得根据歌声合成模型生成的歌声中的颤音减少。

基于端到端深度学习的帕金森语音检测方法-202310421984.X
发明人：全昌勤;吴玲玉;凌云;陈仲略;任康;罗志伟;马凌燕 -专利权人：深圳市臻络科技有限公司
申请日： 2023-04-19 - 公布日： 2023-07-18 - 主分类号： G10L25/24
摘要：本发明公开了一种基于端到端深度学习的帕金森语音检测方法，包括以下步骤：S1:对帕金森患者的语音进行采集，并且对语音进行预处理，获得语音样本；S2:将语音样本代入对数梅尔谱图上进行动态特征转换，获得特征值；S3:将特征值代入至基于Time‑distributed 2D‑CNNs和1D‑CNN的检测模型内进行计算，并且进行模型的参数优化，获得计算模型；S4:将用户的语音信息导入至计算模型内，获得计算结果，本申请通过利用对数梅尔图谱将语音转化为时序动态特征，然后代入对应的模型算法中，从而能有效提高整个模型的准确性。

语音识别方法、装置、系统、电子设备及可读存储介质-202310402635.3
发明人：应以勒 -专利权人：北京奕斯伟计算技术股份有限公司
申请日： 2023-04-14 - 公布日： 2023-07-14 - 主分类号： G10L25/24
摘要：本发明提供了一种语音识别方法、装置、系统、电子设备及可读存储介质，以预设时间间隔依次获取音频流的多个音频片段，对每个音频片段进行识别得到多条识别结果，拼接获得所述音频流对应的多条候选识别结果序列，并从多条所述候选识别结果序列中选取目标识别结果序列。在对目标识别结果序列修正时，将多个候选识别结果序列结合音频流按照第一顺序以及第二顺序分别进行解码，第一顺序为从左至右解码，使得每个音频片段可以结合音频片段之前的信息进行解码计算，第二顺序为从右至左解码，使得每个音频片段可以结合音频片段之后的信息进行解码计算，使得可以利用音频流的完整的上下文信息对结果进行校正，提高语音识别模型的准确性。

一种基于麦克风阵列的抑郁症检测方法-202011248610.5
发明人：焦亚萌;周成智 -专利权人：西安工程大学
申请日： 2020-11-10 - 公布日： 2023-07-04 - 主分类号： G10L25/24
摘要：本发明公开的一种基于麦克风阵列的抑郁症检测方法，包括使用麦克风阵列采集目标患者的语音信号并对其进行预处理；提取目标患者预处理后的音频信号和已有抑郁症患者语音数据的MFCC特征，生成音频频谱图；将MFCC特征送入1D卷积神经网络，得到MFCC的P维特征；将音频频谱图送入2D卷积神经网络，得到频谱图的O维特征；将O维特征输入对抗生成网络生成新频谱图像，并将生成的新频谱图像传入2D卷积神经网络进行训练；将MFCC的P维特征和训练得到的特征进行融合并通过全连接层进行降维；降维特征训练分类器；训练分类器识别测试语音，得到识别结果。本发明提高了非实验环境下抑郁症识别的准确率。

变压器声纹检测方法及装置、电子设备、存储介质-202310351025.5
发明人：项新建;郑雨;李旭;曹光客;刘晓成 -专利权人：杭州晟冠科技有限公司;浙江科技学院
申请日： 2023-03-29 - 公布日： 2023-06-30 - 主分类号： G10L25/24
摘要：本申请了提供一种变压器声纹检测方法及装置、电子设备、存储介质，涉及变压器故障检测的技术领域。通过采集变压器在理想运行状态下的第一声纹信息，并根据对第一声纹信息进行特征提取得到的第一梅尔倒谱系数来训练预设神经网络以得到初始检测模型，再通过采集变压器在复杂环境下的第二声纹信息，并对从第二声纹信息中提取到的第二梅尔倒谱系数进行相应类型标注，将类型标注后的第二梅尔倒谱系数输入到初始检测模型中训练得到最终检测模型，通过最终检测模型对待测声纹信息进行检测，实现高效准确地识别变压器的故障类型。

一种声纹呈现攻击的安全防护方法及系统-202310378529.6
发明人：刘继顺;沈亮;张笑笑;张韩;边珊 -专利权人：公安部第三研究所;上海物盾信息科技有限公司
申请日： 2023-04-08 - 公布日： 2023-06-27 - 主分类号： G10L25/24
摘要：本发明提出了一种声纹呈现攻击的安全防护方法及系统，涉及声纹识别安全技术领域。方法通过获取用户的原始语音信息并使用预训练的声纹识别模型从原始语音信息中提取用户的声纹特征信息和用户的说话内容信息，然后以原始语音信息、用户的说话内容信息、用户的声纹特征信息及声纹识别模型为声纹呈现的环境、用户和模型的安全性影响因素构建声纹呈现安全模型，构建对应的影响因素测试样本并在预设安全性评价指标的约束下分别进行安全测试，得到满足要求的声纹呈现安全模型用于声纹识别应用中进行声纹呈现攻击的防护，可以多角度地在声纹呈现识别应用中全面地检测声纹识别过程中存在的安全问题，防止声纹识别应用被欺骗和攻击，提高声纹识别的安全性。

语音转换方法、装置、电子设备及存储介质-202310295364.6
发明人：朱清影;缪陈峰;陈婷;马骏;王少军;肖京 -专利权人：平安科技（深圳）有限公司
申请日： 2023-03-23 - 公布日： 2023-06-23 - 主分类号： G10L25/24
摘要：本申请的语音转换方法、装置、电子设备及存储介质中，根据文本序列以及第一说话人的说话人特征获取融合特征向量；根据第二说话人的源梅尔谱获取源频谱特征向量；将融合特征向量和源频谱特征向量输入至预先训练好的语音转换声学模型中，输出第一说话人的目标梅尔谱；根据目标梅尔谱获取目标语音数据；通过上述方式，实现了基于非平行语料的语音转换，无需收集平行语料，提高了语音转换的效率；并且，输入至语音转换声学模型的源频谱特征向量是根据源梅尔谱获取的，语音转换声学模型无需进行对齐预测，语音转换声学模型输出的目标梅尔谱与源梅尔谱严格时间对齐，提高了语音转换的效率；并且，实现了基于非平行语料生成平行语料，实现了数据增强。

一种说话人识别方法及系统-202310300551.9
发明人：李郡;王路远;王啸;尚德龙;周玉梅 -专利权人：中科南京智能技术研究院
申请日： 2023-03-27 - 公布日： 2023-06-23 - 主分类号： G10L25/24
摘要：本发明涉及一种说话人识别方法及系统。该方法包括获取训练好的循环生成对抗网络；获取实时音频数据；提取所述实时音频数据的帧级别梅尔频谱特征，并对提取的实时音频数据的帧级别梅尔频谱特征进行语音活动检测，确定实时音频数据中含有语音的帧级别梅尔频谱特征；将实时音频数据中含有语音的帧级别梅尔频谱特征和注册音频数据中含有语音的帧级别梅尔频谱特征分别利用训练好的循环生成对抗网络中的普通语音帧级别梅尔频谱特征生成器进行映射，确定第一输出结果和第二输出结果；根据第一输出结果和第二输出结果以及说话人识别系统的神经网络模型，确定识别结果；本发明能够提高使用平凡发音识别说话人时的识别效果。

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于变分自编码器的声码器实现方法及装置在审

专利文献下载