“表征语音”专利关键词查询_检索下载_查询列表_检索列表_行业专利分布_钻瓜专利网

钻瓜专利网为您找到相关结果243326个，建议您升级VIP下载更多相关专利

[发明专利]说话对象表征提取模型训练方法和说话对象身份识别方法-CN202111368130.7在审
发明人：许成林;郑羲光;陈联武;张晨 -专利权人：北京达佳互联信息技术有限公司
申请日： 2021-11-18 - 公布日： 2022-01-28 - 主分类号： G10L17/04 文献下载
摘要：本公开关于说话对象表征提取模型训练方法和说话对象身份识别方法，所述训练方法包括：获取多个说话对象的语音信号样本；获取多个说话对象的语音信号样本的音频特征；将多个说话对象的语音信号样本的音频特征输入说话对象表征提取模型，获得估计的多条语音表征；将估计的多条语音表征输入说话对象身份判别器，获得估计的每条语音表征对应的身份预测概率；根据估计的每条语音表征对应的身份预测概率以及估计的每条语音表征对应的说话对象真实身份标签，计算损失函数的值；通过根据损失函数的值调整说话对象表征提取模型和说话对象身份判别器的参数，从而对说话对象表征提取模型进行训练。
说话对象表征提取模型训练方法身份识别

[发明专利]自监督语音表征训练方法、系统、电子设备和存储介质-CN202211375757.X在审
发明人：陈谐;马子阳;郑之胜 -专利权人：思必驰科技股份有限公司
申请日： 2022-11-04 - 公布日： 2023-03-28 - 主分类号： G06N3/045 文献下载
摘要：本发明实施例提供一种自监督语音表征训练方法、系统、电子设备和存储介质。该方法包括：构建自监督语音表征学习主干网络；基于编码网络对原始语音进行采样得到语音表征；将语音表征遮蔽处理后作为内容网络的输入，输出带有遮蔽表征的聚合语音表征；将聚合语音表征中的遮蔽表征分别输入至在线目标提取器和自监督预训练的离线目标提取器，确定在线提取损失和离线提取损失；基于在线提取损失和离线提取损失对自监督语音表征学习主干网络进行梯度反向传播训练。本发明实施例通过多任务学习的方式整合多目标，可以学习更准确的语音表征，同时模型的收敛速度也得到了提升，实现在不降低效果的情况下提升模型的收敛速度，从而节约训练成本。
监督语音表征训练方法系统电子设备存储介质

[发明专利]改进掩码策略的自监督语音表征方法及相关设备-CN202210517669.2在审
发明人：张旭龙;王健宗;程宁 -专利权人：平安科技（深圳）有限公司
申请日： 2022-05-12 - 公布日： 2022-08-30 - 主分类号： G10L25/30 文献下载
摘要：本申请涉及人工智能技术领域，尤其涉及一种改进掩码策略的自监督语音表征方法及相关设备。所述方法包括根据基于语音和音素级别的改进掩码策略对预处理后的语音数据做掩码处理，并进行Transformer模型训练，得到训练好的自监督语音表征模型；将待表征语音数据输入至训练好的自监督语音表征模型中，获得目标表征数据。本申请还涉及区块链技术，利用改进后的掩码策略处理后的语音数据可存储于区块链中。本方案采用自监督学习模型对语音数据进行了改进的掩码处理，处理后的语音数据表征训练具有更高复杂度，因而得到的模型更具高级别的表征能力，能有效改进下游语音处理任务的准确率。
改进掩码策略监督语音表征方法相关设备

[发明专利]一种语音应答方法、装置、电子设备及可读存储介质-CN202111150448.8在审
发明人：吴晓婷 -专利权人：中国移动通信有限公司研究院;中国移动通信集团有限公司
申请日： 2021-09-29 - 公布日： 2023-03-31 - 主分类号： G10L15/06 文献下载
摘要：本申请提供一种语音应答方法、装置、电子设备及可读存储介质，所述方法包括：获取待应答语音数据；使用预先训练的变压器Transformer模型，提取所述待应答语音数据的第一表征向量；基于所述第一表征向量和表征向量集合获取目标表征向量，所述目标表征向量为所述表征向量集合中与所述第一表征向量的相似度最高的表征向量，其中，所述表征向量集合中每个表征向量对应一个动作；获取应答动作的应答语音，所述应答动作为所述目标表征向量对应的目标动作；输出所述应答语音
一种语音应答方法装置电子设备可读存储介质

[发明专利]基于跨模态表征对齐的英越端到端语音翻译方法-CN202310646473.8在审
发明人：余正涛;周国江;高盛祥 -专利权人：昆明理工大学
申请日： 2023-06-02 - 公布日： 2023-08-29 - 主分类号： G06F40/58 文献下载
摘要：本发明涉及基于跨模态表征对齐的英越端到端语音翻译方法，属于自然语言处理技术领域。本发明基于英语音频表征与文本表征的长度信息，进行对齐并分别混合得到词级与句子级的混合表征；使用长度归一化融合方法统一混合表征与音频表征的长度以减轻混合表征与语音表征之间由长度导致的模态差异问题，使用门控融合方法对混合表征进一步融合得到多粒度混合表征作为解码器输入，对不同模态的输出进行一致性在多任务训练框架下约束，实现英语语音表征与对应文本表征的跨模态对齐。本发明为后续在英语到越南语端到端语音翻译以及语音与文本跨模态表征对齐等工作提供强有力的支撑，缓解了英语到越南语语音翻译的跨模态映射困难问题。
基于跨模态表征对齐英越端到端语音翻译方法

[发明专利]基于层次化蒸馏的语音识别模型的训练方法及相关设备-CN202310345272.4在审
发明人：韩明伦;石晶;徐爽;徐波 -专利权人：中国科学院自动化研究所
申请日： 2023-03-31 - 公布日： 2023-07-28 - 主分类号： G10L15/26 文献下载
摘要：本发明提供一种基于层次化蒸馏的语音识别模型的训练方法、装置、电子设备和存储介质，其中方法包括：确定训练语音文本对，得到训练语音文本对对应的高阶声学表征，并确定训练语音文本对对应的语言学表征；基于预训练语言模型确定训练语音文本对的预训练语言学表征，并对高阶声学表征和预训练语言学表征进行归一化处理，得到第一归一表征和第二归一表征；基于第一归一表征和第二归一表征得到声学层次的第一蒸馏损失，以及基于语言学表征和预训练语言学表征得到语言学层次的第二蒸馏损失；基于声学层次的第一蒸馏损失和语言学层次的第二蒸馏损失，确定语音识别模型是否训练完成，并在训练完成时得到语音识别模型。提高了语音识别模型的识别准确率。
基于层次蒸馏语音识别模型训练方法相关设备

[发明专利]一种语音转换模型的确定方法和相关装置-CN202210270401.3在审
发明人：陈新;孙闳绅;刘世兴;王智圣;郑磊;丁丹俊 -专利权人：腾讯科技（深圳）有限公司
申请日： 2022-03-18 - 公布日： 2023-09-26 - 主分类号： G10L15/06 文献下载
摘要：本申请实施例公开了一种语音转换模型的确定方法和相关装置，至少涉及人工智能中的机器学习，将源语者的源语音片段输入至编码子模型中，训练编码子模型得到源语音片段的内容表征，其中，内容表征用于表征对语音的内容信息，如音素序列、转折音、情绪、语气等，通过训练编码子模型能够隐式的表征语音，降低其对语音的表征约束力，相比于相关技术，通过编码子模型得到的内容表征能够包括语音中相对更完整的内容信息，故通过训练好的编码子模型得到的内容表征对语音的表述更为准确，从而根据更为准确的目标语音片段的内容表征训练得到的解码子模型更为准确，使得包括编码子模型和解码子模型的语音转换模型更为准确，提高了语音转换的自然度。
一种语音转换模型确定方法相关装置

[发明专利]改进的预训练方法、电子设备和存储介质-CN202310706125.5在审
发明人：俞凯;马子阳;郑之胜;杨冠柔;陈谐 -专利权人：思必驰科技股份有限公司
申请日： 2023-06-14 - 公布日： 2023-09-15 - 主分类号： G10L15/06 文献下载
摘要：本发明公开改进的预训练方法、电子设备和存储介质，其中，预训练方法，用于预训练模型，所述预训练模型包括单元生成模块和主干网络，包括：利用所述主干网络对语音进行降采样得到第一语音表征，使用掩码对所述第一语音表征中的部分语音表征进行遮蔽得到第二语音表征，对所述第二语音表征进行聚合得到输出语音表征；对于所述输出语音表征的被遮蔽部分，与所述单元生成模块提取的离散目标计算损失，并在所述主干网络中进行梯度反向传播。本申请实施例提出了一个通过无监督算法提升自监督语音表征学习的框架，优化自监督学习的训练目标，在ASR任务上效果超过最先进的模型，同时在多项非ASR任务上取得好的效果。
改进训练方法电子设备存储介质

[发明专利]一种假音检测方法、假音检测模型获取方法及相关设备-CN202310492726.0在审
发明人：唐海桃;高天;徐文渊;陈艳姣;方昕;刘俊华;刘聪 -专利权人：科大讯飞股份有限公司
申请日： 2023-04-28 - 公布日： 2023-07-07 - 主分类号： G10L25/51 文献下载
摘要：本发明提供了一种假音检测方法、假音检测模型获取方法及相关设备，假音检测方法包括：获取目标语音；基于预先获得的目标假音检测模型，检测目标语音是否为假音，目标假音检测模型采用标注有语音类别的训练语音对构建的假音检测模型训练得到，构建的假音检测模型包括语音编码器、根据语音编码器的输出获取说话人表征的说话人表征模块、根据语音编码器的输出获取假音表征的假音表征模块，以及根据说话人表征模块的输出和假音表征模块的输出进行语音分类的语音分类模块，说话人表征模块通过结合说话人分类任务，辅以语音编码器训练得到，语音编码器为通过预训练获得的语音预训练模型。本发明提供的假音检测方法可准确地检测出语音是否为假音。
一种检测方法模型获取相关设备

[发明专利]一种语音转换模型训练方法、语音转换方法及装置-CN202211415018.9在审
发明人：任凯盟;周鸿斌;叶剑豪;贺来朋;贺天威;贺雯迪;游于人;谭芃菲;卢恒 -专利权人：上海喜马拉雅科技有限公司
申请日： 2022-11-11 - 公布日： 2023-03-07 - 主分类号： G10L21/013 文献下载
摘要：本申请的实施例提供了一种语音转换模型训练方法、语音转换方法及装置，涉及语音转换技术领域，方法包括：确定训练语料的音素编码向量、音色表征向量以及风格表征向量，计算音素编码向量、音色表征向量以及风格表征向量的互信息，将音素编码向量、音色表征向量以及风格表征向量级联得到目标向量，确定目标向量的预测梅尔谱，计算预测梅尔谱与真实梅尔谱的损失信息，基于互信息与损失信息对待训练的语音转换模型的参数进行调整，返回执行计算音素编码向量、音色表征向量以及风格表征向量的互信息至基于互信息与损失信息对待训练的语音转换模型的参数进行调整，得到更新后的语音转换模型的步骤，直至达到训练次数，提升语音转换的效果。
一种语音转换模型训练方法装置

[发明专利]一种不依赖发音词典的语音合成系统及方法-CN202210177013.0在审
发明人：刘畅;凌震华 -专利权人：中国科学技术大学
申请日： 2022-02-24 - 公布日： 2022-05-13 - 主分类号： G10L13/02 文献下载
摘要：本发明公开了一种不依赖发音词典的语音合成系统及方法，系统包括：语种无关的语音识别模型、文本‑发音表征预测模型、发音表征‑声学预测模型和神经网络声码器。该系统及方法通过训练一个语种无关的自动语音识别模型，能自动地从目标语种的语音数据中提取发音表征，继而将发音表征用于构建语音合成系统。所构建语音合成系统首先从文本字符预测发音表征，再从发音表征生成语音。本发明可以解决传统语音合成方法在构建多语种语音合成系统时依赖语种相关发音词典的问题。发音词典的建立往往需要语言专家参与，耗费大量人力与时间。该方法相对现有从文本字符直接预测语音声学特征的方法可以降低合成语音中的发音错误，提高合成语音的自然度。
一种不依赖发音词典语音合成系统方法

[发明专利]一种基于语音深度表征映射的语音翻译方法及系统-CN202211244884.6有效
发明人：郑书凯;李太豪;阮玉平;黄剑韬 -专利权人：之江实验室
申请日： 2022-10-12 - 公布日： 2023-01-31 - 主分类号： G10L15/00 文献下载
摘要：本发明公开了一种基于语音深度表征映射的语音翻译方法及系统属于人工智能领域，涉及人工智能领域，本发明基于语音深度表征映射的语音翻译方法及海量无标注数据和大量成对数据训练深度学习模型，可以方便的使用海量影视等媒体数据进行模型训练，方便的应用于各种语言语音的互译，提供了一种便捷通用的语音互译方案；本发明基于语音深度表征映射的语音翻译方法提供了一种声纹嵌入的声码器进行语音合成，可实现语音翻译发音音色指定可控，并且能够使得合成的语音保真度更高；本发明的语音深度表征映射的语音翻译系统集成了基于语音深度表征映射的语音翻译方法，能够实现语音直接翻译任务，简化了语音翻译的流程，提高了语音翻译的精度。
一种基于语音深度表征映射翻译方法系统

[发明专利]语音识别方法、装置及电子设备-CN202310016938.1在审
发明人：杜志浩;张仕良;林宇箫 -专利权人：阿里巴巴达摩院（杭州）科技有限公司
申请日： 2023-01-06 - 公布日： 2023-02-24 - 主分类号： G10L15/26 文献下载
摘要：本申请实施例提供了一种语音识别方法、装置及电子设备，其中，语音识别方法包括：获取待识别的语音帧数据对应的语音表征向量和说话人表征向量；对所述语音表征向量进行并行的语音帧文本激活值预测，并在预测结果指示语音帧文本激活值达到发射阈值时，根据在所述发射阈值的范围内的语音表征向量生成发射向量；根据所述发射向量和所述说话人表征向量，为所述发射向量确定对应的文本及所述文本对应的说话人。通过本申请实施例，提高了语音识别和说话人标记的准确度。
语音识别方法装置电子设备

[发明专利]基于文本的语音编辑方法、系统、电子设备和存储介质-CN202211696422.8在审
发明人：俞凯;陈谐;梁正;杜晨鹏 -专利权人：思必驰科技股份有限公司
申请日： 2022-12-28 - 公布日： 2023-04-14 - 主分类号： G10L13/08 文献下载
摘要：本发明实施例提供一种基于文本的语音编辑方法、系统、电子设备和存储介质。该方法包括：将编辑文本输入至文本编码器，确定编辑文本中修改部分对应的语音时长，基于语音时长以及编辑文本的音素编码确定编辑文本的文本表征；将语音时长以及编辑文本修改前的语音输入至语音编码器，基于语音时长对修改前的语音中对应修改部分进行遮盖，得到声学表征、带有遮盖上下文的隐藏表征以及带有遮盖区域的梅尔频谱；将文本表征、遮盖后的声学表征以及隐藏表征输入至联合网络，得到遮盖区域对应的预测梅尔频谱。本发明实施例能够让模型利用原语音的上下文信息，从而预测出更符合原音频的编辑区语音，并且也能避免拼接方法产生的语音不自然和不连续现象。
基于文本语音编辑方法系统电子设备存储介质

[发明专利]基于多模态对齐与多向量表征的人格检测方法-CN202010070066.3有效
发明人：陈承勃;权小军 -专利权人：中山大学
申请日： 2020-01-21 - 公布日： 2023-05-23 - 主分类号： G06V10/764 文献下载
摘要：本发明公开一种基于多模态对齐与多向量表征的人格检测方法，包括将语音和视频模态数据按每个epoch进行重采样；将数个样本及其文本模态数据输入模态内表征模块进行独立编码，得到语音序列、视频序列和文本序列；将语音序列、视频序列和文本序列输入模态间对齐表征模块以两两对齐交互后拼接，得到增强后的语音表征、视频表征和文本表征；将所有语音表征、所有视频表征和所有文本表征分别拼接得到语音向量、视频向量和文本向量，输入卷积神经网络转化为至少两类人格向量本发明通过3个模态数据的两两交互增强模态表征，提高模型的辨别能力，得到更为精准的预测结果。
基于多模态对齐多向表征人格检测方法

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
下一页»
尾页
共 100000 条