“康世胤”申请（专利权）人搜索_中国专利权人_发明人_技术持有人_科研专家_钻瓜专利网

钻瓜专利网为您找到相关结果47个，建议您升级VIP下载更多相关专利

[发明专利]一种端到端的口音转换方法-CN202010239586.2有效
发明人：刘颂湘;王迪松;曹悦雯;孙立发;吴锡欣;康世胤;吴志勇;刘循英;蒙美玲 -专利权人：深圳市达旦数生科技有限公司
申请日： 2020-03-30 - 公布日： 2023-10-27 - 主分类号： G10L21/013 文献下载
摘要：本发明公开了一种端到端的口音转换方法，将非地道口音转换为地道口音，属于语音处理技术领域，也可用于将发音障碍的患者的语音转换为标准语音，包括实现口音转换方法的口音转换系统，口音转换系统包括语音识别模块、说话人编码器、语音合成模块、神经网络声码器，语音识别模块用于将输入的非地道口音的声学特征调整为地道口音的信号参数，信号参数仅与非地道口音的说话内容相关；非地道口音的信号参数和说话人向量输入至语音合成模块，经语音合成模块处理过的语音最后通过神经网络声码器即可合成特定说话人的地道口音；有益效果是：在转换过程中无需地道口音参考音频的任何指导，即能够将非地道口音转换为地道口音，并且保持说话人的原本音色。
一种端到端口音转换方法

[发明专利]端到端语音识别模型训练方法、语音识别方法及相关装置-CN202110832626.9有效
发明人：吴振宗;徐易楠;康世胤;许佳 -专利权人：广州虎牙科技有限公司
申请日： 2021-07-22 - 公布日： 2023-10-03 - 主分类号： G10L15/02 文献下载
摘要：本发明提供的端到端语音识别模型训练方法、语音识别方法及相关装置，该方法包括：根据文本语料，获得训练后的语言模型；根据语言模型构建端到端语音识别模型，并根据音频语料对构建后的端到端语音识别模型进行训练，获得训练后的端到端语音识别模型。本发明基于数量级较大的文本语料先训练出一个语言模型，让这个语言模型可以学习更多的语言知识，进而，利用训练后的语言模型构建端到端语音识别模型，在结合音频语料进行训练，不仅可以让训练后的模型避免因多音字现象造成识别准确度降低的现象，同时在避免可训练之前需要对音频语料进行标注成本较大的问题。
端到端语音识别模型训练方法相关装置

[发明专利]3D舞蹈生成方法、装置、设备和存储介质-CN202310092026.2在审
发明人： 康世胤;吴志勇;庄昊霖;雷舜;肖龙;李伟钦;陈礼扬;杨思程 -专利权人：深圳元象信息科技有限公司;清华大学深圳国际研究生院
申请日： 2023-01-29 - 公布日： 2023-06-23 - 主分类号： G06T9/00 文献下载
摘要：本申请提供了一种3D舞蹈生成方法、装置、设备和存储介质，所述方法通过对给定音乐进行提取操作，获得给定音乐的能量、音乐特征和梅尔谱，根据能量、音乐特征和梅尔谱，生成第一目标向量，加强了每个流派与其对应音乐之间的相关性；将舞蹈片段的骨骼关节位置输入矢量量化自动编码器，生成初始上半身姿态编码和初始下半身姿态编码，根据初始上半身姿态编码、初始下半身姿态编码和第一目标向量，生成第二目标向量，将第二目标向量输入生成式的预训练模型，预测目标上半身姿态编码和目标下半身姿态编码，提高舞蹈生成框架的整体流派一致性；将目标上半身姿态编码和目标下半身姿态编码输入矢量量化自动解码器，获得未来3D舞蹈，提高了舞蹈生成质量。
舞蹈生成方法装置设备存储介质

[发明专利]语音合成方法、系统、电子设备及存储介质-CN202310072854.X有效
发明人：陈杰;康世胤;吴志勇 -专利权人：深圳元象信息科技有限公司;清华大学深圳国际研究生院
申请日： 2023-02-07 - 公布日： 2023-06-02 - 主分类号： G10L13/04 文献下载
摘要：本申请涉及语音合成技术领域，尤其涉及一种语音合成方法、系统、电子设备及存储介质。该语音合成方法基于预训练的语音合成模型实现，语音合成模型包括文本编码器模块、时长预测模块、解码器模块，方法包括：获取音素序列，并输入至语音合成模型；通过文本编码器模块将音素序列转换成均值序列，并输入至时长预测模块；通过时长预测模块将均值序列扩展复制，得到拓展后的均值序列；通过解码器模块将拓展后的均值序列去噪并转换为梅尔谱，以输出合成后的语音。本申请的语音合成方法，可以将语音转换成均值序列并去噪，经过去噪操作后，提高了语音合成速度，加快了解码器的运算速度，使得基于去噪扩散概率模型的语音合成模型能够应用在实际场景中。
语音合成方法系统电子设备存储介质

[发明专利]一种风格语音合成方法、装置、电子设备及存储介质-CN202110620052.9有效
发明人：陀得意;康世胤;刘峰;游于人;许佳 -专利权人：广州虎牙信息科技有限公司
申请日： 2021-06-03 - 公布日： 2023-05-26 - 主分类号： G10L13/02 文献下载
摘要：本发明实施例公开了一种风格语音合成方法、装置、电子设备及存储介质。该方法包括：获取与待风格合成的目标文本对应的风格参考语音，并在各备选语音中识别出与风格参考语音属于同一说话人且风格一致的至少一项关联语音；根据风格参考语音和各关联语音的语音表征特征，形成平稳语音表征特征；根据平稳语音表征特征，得到与目标文本对应的目标梅尔谱特征，并根据目标梅尔谱特征，生成与目标文本对应的目标风格语音。使用本发明的技术方案，可以提高语音的稳定性，在合成语音时凸出语音风格的表现力。
一种风格语音合成方法装置电子设备存储介质

[发明专利]一种视频生成方法、存储介质及设备-CN202110474530.X有效
发明人：林哲;陀得意;韩欣彤;康世胤 -专利权人：广州虎牙科技有限公司
申请日： 2021-04-29 - 公布日： 2023-04-25 - 主分类号： G06T13/20 文献下载
摘要：本说明书提供一种视频生成方法、存储介质及设备，该方法中，对初始图片中的初始人脸特征进行解耦合，得到初始人脸形状特征和初始头部姿态特征，并对音频数据进行切分，并得到切分后的音频片段对应的目标表情特征，再利用初始人脸形状特征、初始头部姿态特征和目标表情特征进行组合，构建出音频片段对应的目标图片，最后利用所有音频片段对应的目标图片合并得到目标视频。这样，实现了根据初始图片和音频数据来生成视频，降低了基于单幅人脸图像来制作视频的制作成本，且提高了真实程度。
一种视频生成方法存储介质设备

[发明专利]热词识别方法、装置、计算机设备及存储介质-CN202211638256.6有效
发明人： 康世胤;吴志勇;徐耀勋;刘柏基;黄翘楚;宋星辰 -专利权人：深圳元象信息科技有限公司;清华大学深圳国际研究生院
申请日： 2022-12-20 - 公布日： 2023-04-07 - 主分类号： G10L15/02 文献下载
摘要：本申请涉及语音识别领域，公开了一种热词识别方法、装置、计算机设备及存储介质，所述热词识别方法包括通过预设热词偏置模块，将待识别热词转化成待识别嵌入特征向量，计算特征向量与目标音频片段对应的契合度；基于预设自适应语言模型，调整所述待识别热词在自适应语言模型中的偏误权重，以提高待识别热词的识别率；基于识别率与所述契合度，识别待识别热词。本申请通过自适应语言模型调整待识别热词在自适应语言模型中的偏误权重与预设热词偏置模块获取待识别热词与目标音频片段的契合度并找到更相关的热词，以识别待识别热词，提高了语音识别中对热词的识别准确性，解决了当前语音识别领域中对热词识别的准确性低下的技术问题。
识别方法装置计算机设备存储介质

[发明专利]语音合成方法、语音合成系统、语音合成设备及存储介质-CN202211629324.2有效
发明人： 康世胤;吴志勇;雷舜;周逸轩;陈礼扬 -专利权人：深圳元象信息科技有限公司;清华大学深圳国际研究生院
申请日： 2022-12-19 - 公布日： 2023-03-31 - 主分类号： G10L13/02 文献下载
摘要：本申请涉及语音合成技术领域，尤其涉及一种语音合成方法、语音合成系统、语音合成设备及存储介质。该方法包括：从当前语句的文本信息中获取声学特征序列；对当前语句、历史语句、未来语句的文本信息，获取上下文语义信息；获取历史语句的历史风格信息；将历史风格信息、上下文语义信息融合，得到期望风格信息；将期望风格信息与声学特征序列融合，以生成当前文本的语音信息。本申请的语音合成方法，不仅考虑了上下文文本信息对说话风格的影响，还通过引入历史语句的历史风格信息，更好地预测当前语句的风格信息，使合成的语音具有不错的表现力。
语音合成方法系统设备存储介质

[发明专利]语音合成方法、模型训练方法、装置和计算机设备-CN201810828220.1有效
发明人：吴锡欣;王木;康世胤;苏丹;俞栋 -专利权人：腾讯科技（深圳）有限公司
申请日： 2018-07-25 - 公布日： 2023-03-24 - 主分类号： G10L13/04 文献下载
摘要：本申请涉及一种语音合成方法、模型训练方法、装置和计算机设备，所述方法包括：获取待处理的语言学数据；对所述语言学数据编码，得到语言学编码数据；获取用于语音特征转换的嵌入向量；所述嵌入向量，根据对应相同参考语言学数据的参考合成语音数据和参考语音数据之间的残差生成；根据所述嵌入向量对所述语言学编码数据进行解码，获得经过语音特征转换的目标合成语音数据。本申请提供的方案可以避免因对数梅尔频谱中的语义特征影响合成语音的质量的问题。
语音合成方法模型训练装置计算机设备

[发明专利]一种情感识别模型的训练方法、情感识别方法及装置-CN202110801470.8有效
发明人：曾志平;徐易楠;康世胤 -专利权人：广州虎牙科技有限公司
申请日： 2021-07-15 - 公布日： 2023-03-21 - 主分类号： G10L25/63 文献下载
摘要：本申请公开了一种情感识别模型的训练方法、情感识别方法及装置，该训练方法包括：获取针对直播场景的音频样本数据集合，所述音频样本数据集合中的各音频样本数据具有预先标注的情感标签以及行为标签；提取各音频样本数据中的音频特征，并对所述音频特征进行数据增强，获得音频特征集合；将所述音频特征集合输入至初始识别模型，采用预设损失函数进行训练，生成情感识别模型，其中，所述初始识别模型是包括隐藏层以及NetVLAD层的深度神经网络模型，丰富了输入至初始识别模型进行训练的特征数据的数量，从而提高了情感识别模型的识别准确率。
一种情感识别模型训练方法装置

[发明专利]语音分离方法、装置及存储介质-CN202211680551.8有效
发明人： 康世胤;吴志勇;童玮男;朱佳旭;陈鋆 -专利权人：深圳元象信息科技有限公司;清华大学深圳国际研究生院
申请日： 2022-12-27 - 公布日： 2023-03-21 - 主分类号： G10L21/0272 文献下载
摘要：本申请公开了一种语音分离方法、装置及存储介质，该方法包括：获取第一语谱图和多个第二语谱图，第一语谱图为原始语音信号的语谱图，多个第二语谱图为从原始语音信号中分离出来的多个原分离语音信号的语谱图；利用校正模型基于第一语谱图对多个第二语谱图的原相位和原幅度进行校正，得到多个第二语谱图对应的校正相位和校正幅度，其中校正模型包括二维卷积模块；根据多个第二语谱图的原相位和原幅度以及对应的校正相位和校正幅度，得到多个校正后的第二语谱图；根据多个校正后的第二语谱图，得到多个校正的分离语音信号。通过这种方式，本申请能够减小分离语音信号与真实的分离源语音信号的差别。
语音分离方法装置存储介质

[发明专利]一种音频文本对齐方法、装置、电子设备及存储介质-CN202110287610.4有效
发明人：刘峰;康世胤;陀得意;游于人;许佳 -专利权人：广州虎牙科技有限公司
申请日： 2021-03-17 - 公布日： 2022-12-23 - 主分类号： G11B27/10 文献下载
摘要：本申请提供一种音频文本对齐方法、装置、电子设备及存储介质，所述方法包括：提取待对齐音频的音频特征；将待对齐文本进行三音素拆分，并对所述三音素进行聚类；基于所述音频特征与所述聚类后的三音素，对所述待对齐音频与所述待对齐文本进行三音素对齐。通过在将对齐文本进行三音素拆分后对三音素进行聚类，可以减少音频文本对齐过程中所要处理的特征数量，从而缩短了音频文本对齐处理流程，保证了对齐实时性。
一种音频文本对齐方法装置电子设备存储介质

[发明专利]虚拟人脸生成方法、装置、计算机设备及可读存储介质-CN202210945884.2在审
发明人： 康世胤;赵欣陶;刘柏基;莫贵明;吴志勇 -专利权人：深圳元象信息科技有限公司
申请日： 2022-08-08 - 公布日： 2022-12-16 - 主分类号： G10L21/10 文献下载
摘要：本申请属于多媒体技术领域，提供了一种虚拟人脸生成方法、装置、计算机设备及计算机可读存储介质，为了解决基于语音驱动的虚拟人脸生成不支持流式语音的虚拟人脸生成的问题，通过预先设置语音的预设语义特征与预设人脸特征之间的预设对应关系，并获取源音频，且将源音频进行流式处理，得到流式语音特征，再基于自注意机制，获取流式语音特征所对应的流式语义特征，并根据预设对应关系，获取流式语义特征所对应的流式人脸特征，再将流式人脸特征生成虚拟人脸，从而支持语音的流式处理来驱动虚拟人脸的生成，实现语音驱动的流式虚拟人脸的实时生成，不但能够充分满足语音驱动下低时延的实时的虚拟人脸生成，而且具有较好的人脸生成效果。
虚拟生成方法装置计算机设备可读存储介质

[发明专利]一种基于人工智能的合成说话表情的方法和相关装置-CN201910745062.8有效
发明人：李广之;陀得意;康世胤 -专利权人：腾讯科技（深圳）有限公司
申请日： 2018-11-14 - 公布日： 2022-12-16 - 主分类号： G06N3/00 文献下载
摘要：本申请实施例公开了一种基于人工智能的合成说话表情的方法和相关装置，至少涉及人工智能中的多种技术，针对终端发送的文本内容，确定文本内容对应的文本特征和所述文本特征所标识发音元素的时长，通过表情模型，获得所述文本特征、所标识发音元素的时长对应的目标表情特征；并向所述终端返回所述目标表情特征。该表情模型可以对该文本特征中具有不同时长的同一发音元素确定出不同的子表情特征，增加了说话表情的变化样式，根据表情模型所确定目标表情特征生成的说话表情与说话人的表情搭配，由于对于同一个发音元素说话表情具有不同的变化样式，从而改善了说话表情变化的过度不自然的情况，提高了用户的沉浸感。
一种基于人工智能合成说话表情方法相关装置

[发明专利]一种模型训练方法、合成说话表情的方法和相关装置-CN201811354206.9有效
发明人：李廣之;陀得意;康世胤 -专利权人：腾讯科技（深圳）有限公司
申请日： 2018-11-14 - 公布日： 2022-10-21 - 主分类号： G06N3/00 文献下载
摘要：本申请实施例公开了一种用于合成说话表情的模型训练方法，根据包含了说话人面部动作表情和对应语音的视频得到表情特征、声学特征和文本特征。由于声学特征和文本特征均是根据同一视频得到的，故根据声学特征确定出文本特征所标识发音元素的时间区间和时长。根据文本特征所标识发音元素的时间区间和时长，以及表情特征确定第一对应关系，根据所述第一对应关系训练表情模型。该表情模型可以对该文本特征中具有不同时长的同一发音元素确定出不同的子表情特征，增加了说话表情的变化样式，根据表情模型所确定目标表情特征生成的说话表情，由于对于同一个发音元素说话表情具有不同的变化样式，从而一定程度上改善了说话表情变化的过度不自然的情况。
一种模型训练方法合成说话表情相关装置

1
2
3
4
下一页»
尾页
共 47 条