“戴礼荣”申请（专利权）人搜索_中国专利权人_发明人_技术持有人_科研专家_钻瓜专利网

钻瓜专利网为您找到相关结果41个，建议您升级VIP下载更多相关专利

[发明专利]音频数据处理方法、人机交互方法、设备和存储介质-CN202310678990.3在审
发明人：史莫晗;左玲云;陈谦;张仕良;舒钰淳;张结;戴礼荣 -专利权人：阿里巴巴（中国）有限公司
申请日： 2023-06-08 - 公布日： 2023-10-03 - 主分类号： G10L15/22 文献下载
摘要：本发明实施例提供一种音频数据处理方法、人机交互方法、设备和存储介质，该方法包括：获取第一音频片段，并根据第一音频片段的语义特征，确定第一音频片段与第二音频片段是否构成完整语义，第二音频片段在第一音频片段之前采集。若第一音频片段和第二音频片段构成完整语义，则将第一音频片段和第二音频片段确定为待处理音频。最终，响应待处理音频。上述方法中，由于在获取第一音频片段后即可得到其的语义特征，使用语义特征能够立即确定用户是否已经产生语义完整的音频，即缩短了确定语义完整所需时间，之后处理设备也可以立即对语音完整的音频进行响应，从而降低人机对话的时延。
音频数据处理方法人机交互设备存储介质

[发明专利]语音识别方法、设备和存储介质-CN202310680032.X在审
发明人：史莫晗;杜志浩;陈谦;俞帆;张仕良;李泱泽;张结;戴礼荣 -专利权人：阿里巴巴（中国）有限公司
申请日： 2023-06-08 - 公布日： 2023-09-29 - 主分类号： G10L15/20 文献下载
摘要：本申请提供一种语音识别方法、设备和存储介质，方法包括：通过语音识别编码器获取语音信号对应的第一向量表示，通过说话者编码器获取语音信号对应的第二向量表示，通过文本编码器对语音识别解码器已经输出的前n‑1个字进行编码处理，得到第n‑1个字对应的第三向量表示。将第一向量表示、第二向量表示和第三向量表示输入说话者解码器中，获得第n个字对应的说话者向量表示，根据该说话者向量表示分别与多个说话者的画像特征向量之间的相关性系数，确定第n个字对应的说话者。将第一向量表示、前n‑1个字以及相关性系数对多个说话者的画像特征向量的加权和，输入语音识别解码器，获得第n个字，提高了各个字对应的说话者识别结果的准确性。
语音识别方法设备存储介质

[发明专利]语音识别方法、装置及电子设备-CN202310659632.8在审
发明人：史莫晗;杜志浩;俞帆;陈谦;张仕良;张结;戴礼荣 -专利权人：阿里巴巴（中国）有限公司
申请日： 2023-06-05 - 公布日： 2023-08-04 - 主分类号： G10L15/06 文献下载
摘要：本申请提供一种语音识别方法、装置及电子设备。该语音识别方法包括：获取待识别语音，待识别语音为多通道音频，且待识别语音为多个声源发出的；获取多个声源的声纹特征，声源和声纹特征一一对应；将待识别语音和声纹特征输入至预先训练的语音识别模型中，基于待识别语音的空间信息和声纹特征，对待识别语音进行识别，得到待识别语音对应的识别文本，识别文本包括：文本片段和文本片段对应声源标识，本申请能够准确的识别出多通道音频对应的文本以及发声源。
语音识别方法装置电子设备

[发明专利]一种声纹向量提取方法、装置、设备及存储介质-CN202110505478.X有效
发明人：李晋;方昕;褚繁;高天;戴礼荣 -专利权人：科大讯飞股份有限公司
申请日： 2021-05-10 - 公布日： 2023-08-01 - 主分类号： G10L17/00 文献下载
摘要：本申请提供了一种声纹向量提取方法、装置、设备及存储介质，方法包括：获取目标语音数据对应的语谱片段序列，基于语谱片段序列和预先建立的第一声纹提取模型确定声纹向量，第一声纹提取模型以第一训练语谱片段为训练样本，采用第二声纹提取模型辅助训练得到，第一声纹提取模型的训练目标包括：使基于第一声纹向量和第二声纹向量分别针对设定身份标签预测的概率趋于一致，第一声纹向量为第一声纹提取模型针对第一训练语谱片段提取的声纹向量，第二声纹向量为第二声纹提取模型针对第二训练语谱片段提取的声纹向量，第二训练语谱片段为对第一训练语谱片段的时序进行打乱后的语谱片段。本申请提供的声纹向量提取方法不受语音时序信息的干扰。
一种声纹向量提取方法装置设备存储介质

[发明专利]分布式语音增强方法和语音增强装置-CN202310214884.X在审
发明人：张结;许露真;戴礼荣 -专利权人：中国科学技术大学
申请日： 2023-03-02 - 公布日： 2023-06-23 - 主分类号： G10L21/0216 文献下载
摘要：本公开提供了一种分布式语音增强方法和语音增强装置。该方法包括根据语音参数集构建最优通信概率函数，其中，语音参数集包括权衡因子、更新矩阵第二大特征值和平均传输能耗，平均传输能耗表征在多个节点之间进行语音传输时信号能量的损耗，多个节点包括语音主节点和多个语音辅节点；对最优通信概率函数进行求解，得到节点对通信概率矩阵，其中，节点对通信概率矩阵表征语音主节点选择任意一个语音辅节点构成节点对的概率；基于节点对通信概率矩阵，利用预设处理规则对语音主节点和多个语音辅节点接收的多个声音信号进行处理，得到波束形成信号模型；将从语音主节点获取的输入语音信息输入至波束形成信号模型，输出增强语音信息。
分布式语音增强方法装置

[发明专利]基于语音的动作生成方法、装置、电子设备及存储介质-CN202211435101.2在审
发明人：何山;周良;殷兵;刘聪;戴礼荣 -专利权人：科大讯飞股份有限公司
申请日： 2022-11-16 - 公布日： 2023-03-07 - 主分类号： G10L25/57 文献下载
摘要：本申请提出一种基于语音的动作生成方法、装置、电子设备及存储介质，该方法包括：确定目标语音中包含的动作意图，并确定与所述动作意图相匹配的第一动作序列；以及，从所述目标语音中提取得到语音韵律特征，并基于所述语音韵律特征预测得到与所述语音韵律特征相匹配的第二动作序列；对所述第一动作序列和所述第二动作序列进行融合处理，生成与所述目标语音相匹配的动作序列。上述方案通过多维度的信息生成了与目标语音相匹配的动作序列，从而使得生成的与目标语音相匹配的动作序列更准确，并且更加自然、协调。
基于语音动作生成方法装置电子设备存储介质

[发明专利]一种双层自回归解码的序列到序列语音合成方法及系统-CN202010672991.3有效
发明人：周骁;凌震华;戴礼荣 -专利权人：中国科学技术大学
申请日： 2020-07-14 - 公布日： 2022-12-30 - 主分类号： G10L13/047 文献下载
摘要：本发明提出一种双层自回归解码的序列到序列语音合成方法及系统，系统包括编码器和解码器，所述解码器包括：音素级表征模块、音素级预测模块、帧级预测模块；所述编码器将音素名、音调和韵律短语边界信息用向量表征，然后使用卷积神经网络和双向长短时记忆网络将这些信息编码融合得到句子中每个音素的上下文单元表征；所述音素级表征模块，通过帧一级的长短时记忆网络(LSTM)和池化处理获得每个音素单元的声学单元表征；所述音素级预测模块，采用音素级自回归结构来预测当前音素的声学单元表征并建立连续音素之间的依赖关系；所述帧级预测模块，通过解码器LSTM来预测帧级的声学特征。
一种双层回归解码序列语音合成方法系统

[发明专利]声纹提取方法、装置、设备及可读存储介质-CN202210616862.1在审
发明人：李晋;方昕;褚繁;高天;胡郁;戴礼荣;高建清 -专利权人：科大讯飞股份有限公司
申请日： 2022-06-01 - 公布日： 2022-09-06 - 主分类号： G10L17/20 文献下载
摘要：本申请公开了一种声纹提取方法、装置、设备及可读存储介质。获取待进行声纹提取的语音数据之后，先确定语音数据对应的语谱片段，再针对每个语谱片段，对语谱片段进行声纹提取，得到语谱片段的融合有语音数据的录制环境信息的声纹表征向量；对各个语谱片段的融合环境信息的声纹表征向量进行加权平均，得到语音数据的融合有语音数据的录制环境信息的声纹表征向量。上述方案中，语音数据的声纹表征向量融合有语音数据的录制环境信息，其精准度更高，因此，采用上述方案能够消除语音数据录制环境差异对声纹信息的精准度的影响。
声纹提取方法装置设备可读存储介质

[发明专利]声纹提取方法、身份识别方法及相关设备-CN202210239481.6在审
发明人：李晋;方昕;褚繁;高天;胡郁;戴礼荣 -专利权人：科大讯飞股份有限公司
申请日： 2022-03-11 - 公布日： 2022-07-22 - 主分类号： G10L15/02 文献下载
摘要：本申请公开了一种声纹提取方法、身份识别方法、声纹提取装置、身份识别装置、电子设备及计算机可读存储介质。该声纹提取方法包括：基于目标对象的第一语谱图进行特征提取，得到若干音素片段的特征序列；其中，特征序列包括至少一个帧级特征；基于音素片段的特征序列进行特征统计，得到音素片段的音素特征；基于若干音素片段的音素特征，得到所述目标对象的声纹特征。通过上述方式，能够提高声纹特征的鲁棒性和准确性。
声纹提取方法身份识别相关设备

[发明专利]一种基于参考麦克风优化的多通道语音增强方法-CN202110505085.9有效
发明人：张结;陈星宇;戴礼荣 -专利权人：中国科学技术大学
申请日： 2021-05-10 - 公布日： 2022-07-15 - 主分类号： G10L21/0216 文献下载
摘要：本发明公开了一种基于参考麦克风优化的多通道语音增强方法，包括：步骤1，建立低秩近似多通道维纳滤波器；步骤2，建立输出信噪比数学模型；步骤3，选择参考麦克风：基于步骤2建立的输出信噪比数学模型，选定两个麦克风，并分别计算两个麦克风的输出信噪比差值，选定输入信噪比最大的麦克风作为参考麦克风；步骤4，波束形成得出增强语音信号：将步骤2中选定的秩和步骤3选择的参考麦克风代入步骤1中建立的低秩近似多通道维纳滤波器中，将待增强多麦克风语音信号与该低秩近似多通道维纳滤波器在短时频域做加权求和波束形成的内积运算，得到的结果即为单通道增强后语音信号。该方法有效降低了参考麦克风选择的时间复杂度，提升了多麦克风语音增强及语音识别性能。
一种基于参考麦克风优化通道语音增强方法

[发明专利]多模态语音识别模型的训练方法、语音识别方法及设备-CN202210235261.6在审
发明人：张自强;戴礼荣 -专利权人：中国科学技术大学
申请日： 2022-03-11 - 公布日： 2022-07-08 - 主分类号： G10L15/02 文献下载
摘要：本发明公开了一种多模态语音识别模型的训练方法，包括：利用多模态语言识别模型处理无标签的音视频数据，得到无标签的音视频特征；利用跨模态采样机制对无标签的音视频特征进行采样，得到样本表征；利用多模态语音识别模型处理无标签的音视频特征，得到无标签的融合表征；利用预训练损失函数处理无标签的融合表征和样本表征并根据预训练损失值优化多模态语音识别模型；根据预设任务需求，利用多模态语音识别模型处理带标签的音视频数据，得到带标签的融合表征；利用微调损失函数处理带标签的融合表征并根据微调损失值优化多模态语音识别模型；迭代进行预训练优化操作和微调优化操作，直到微调损失值满足预设条件，得到训练完成的多模态语音识别模型。
多模态语音识别模型训练方法设备

[发明专利]语音识别模型的训练方法、语音识别方法及电子设备-CN202210235275.8在审
发明人：朱秋实;戴礼荣 -专利权人：中国科学技术大学
申请日： 2022-03-11 - 公布日： 2022-06-03 - 主分类号： G10L15/06 文献下载
摘要：本发明公开了一种语音识别模型的训练方法，包括：利用语音识别模型的特征提取模块分别处理干净语音和带噪语音，得到干净语音特征和带噪语音特征；利用语音识别模型的上下文模块处理带噪语音特征，得到上下文表征；利用语音识别模型的量化模块对干净语音特征进行聚类处理，得到量化后的干净语音特征；利用预训练损失函数处理上下文表征和量化后的干净语音特征，得到预训练损失值；根据预训练损失值优化语音识别模型。本发明同时还公开了一种语音识别方法、电子设备以及存储介质。
语音识别模型训练方法电子设备

[发明专利]基于参数化无约束波束形成的双耳语音增强方法及装置-CN202210150297.4在审
发明人：张结;戴礼荣 -专利权人：中国科学技术大学
申请日： 2022-02-18 - 公布日： 2022-05-27 - 主分类号： G10L21/0232 文献下载
摘要：本公开提供了一种基于参数化无约束波束形成的双耳语音增强方法，包括：对M个麦克风获取的带噪声的目标语音信号进行短时傅立叶变换，使带噪声的目标语音信号在短时傅立叶变换域生成第一语音信号矩阵；基于所述第一语音信号矩阵，得到滤波器系数；基于滤波器系数，得到双耳语音增强波束；调节双耳语音增强波束的语音失真参数，得到输出语音信号。本公开实施例提供的存在闭式解的基于参数化无约束波束形成的双耳语音增强方法，具有高效的计算优势，引入语音增强和噪声空间线索保存这两个平衡因子，在满足同等空间线索保存精度的情况下比BMWF‑PNE或BMWF‑RTF方法的降噪性能更优。
基于参数无约束波束形成耳语增强方法装置

[发明专利]事件分析模型的训练方法、事件分析方法及其装置-CN202111495065.4在审
发明人：朱秋实;张结;陈星宇;戴礼荣 -专利权人：中国科学技术大学
申请日： 2021-12-08 - 公布日： 2022-04-08 - 主分类号： G10L25/24 文献下载
摘要：本公开提供了一种事件分析模型的训练方法、事件分析方法及其装置。该事件分析模型的训练方法包括：获取训练样本数据集，其中，训练样本数据集中的训练样本包括与多个训练音频信息对应的多个梅尔频谱倒谱特征训练矩阵以及对应的标签数据；针对于每种训练音频信息，利用多个梅尔频谱倒谱特征训练矩阵和标签数据训练一个第一初始神经网络得到第一神经网络；根据多个第一神经网络的模型参数对多个第一神经网络进行融合，得到融合模型；利用融合模型初始化多个第二初始神经网络，得到多个初始化后的第二初始神经网络；利用多个目标维度特征训练多个初始化后的第二初始神经网络，得到经训练的事件分析模型，目标维度特征是根据训练音频信息生成的。
事件分析模型训练方法及其装置

[发明专利]语种识别方法及相关装置、电子设备和存储介质-CN202111506374.7在审
发明人：李晋;方昕;查飞;冯祥;胡郁;戴礼荣 -专利权人：讯飞智元信息科技有限公司
申请日： 2021-12-10 - 公布日： 2022-04-05 - 主分类号： G10L15/00 文献下载
摘要：本申请公开了一种语种识别方法及相关装置、电子设备和存储介质，其中，语种识别方法包括：对待识别语音的语谱图进行特征提取，得到语种特征；利用投影参数对语种特征进行投影，得到投影特征；其中，投影参数用于消减语种特征中的干扰信息，干扰信息至少包括性别信息；基于投影特征进行预测，得到待识别语音的目标语种。上述方案，能够尽可能地消减诸如性别信息等干扰信息对语种识别的干扰，提升语种识别的准确性。
语种识别方法相关装置电子设备存储介质

1
2
3
下一页»
尾页
共 41 条