“吴梦玥”申请（专利权）人搜索_中国专利权人_发明人_技术持有人_科研专家_钻瓜专利网

钻瓜专利网为您找到相关结果22个，建议您升级VIP下载更多相关专利

[发明专利]声音事件检测模型训练方法、电子设备和存储介质-CN202310101271.5在审
发明人： 吴梦玥;俞凯;徐薛楠 -专利权人：思必驰科技股份有限公司
申请日： 2023-02-10 - 公布日： 2023-05-16 - 主分类号： G10L25/51 文献下载
摘要：本发明公开声音事件检测模型训练方法、电子设备和存储介质，其中，声音事件检测模型训练方法包括：获取预设数据集中成对的音频和文本作为训练数据，其中，所述文本中出现的声音事件都有对应的帧级别标签，所述训练数据还具有对应的段级别标签；基于所述段级别标签和所述声音事件检测模型的输出计算段级别弱损失以对所述声音检测模型进行预训练；基于所述帧级别标签和所述声音事件检测模型输出计算帧级别强损失，结合所述帧级别强损失和所述段级别弱损失对所述声音事件检测模型进行微调。
声音事件检测模型训练方法电子设备存储介质

[发明专利]心理状态检测方法及系统-CN202111420925.8有效
发明人：俞凯;吴梦玥;张平越 -专利权人：思必驰科技股份有限公司
申请日： 2021-11-26 - 公布日： 2023-04-28 - 主分类号： G10L25/63 文献下载
摘要：本发明实施例提供一种心理状态检测方法。该方法包括：基于音频的情绪识别模型从会话语音数据中提取出与目标心理状态相关的情绪特征；将情绪特征作为参考，对会话语音数据进行对比学习，挖掘出对应于目标心理状态的正样本和负样本；基于正样本和负样本进行心理状态检测。本发明实施例还提供一种心理状态检测系统。本发明实施例通过情感识别模型得到的情绪参考特征，并利用对比学习，细粒度的从负样本，准确的预测出用户的心理状态。
心理状态检测方法系统

[发明专利]事件检测模型训练方法、系统、电子设备和存储介质-CN202111681998.2有效
发明人：俞凯;吴梦玥;李光伟;徐薛楠 -专利权人：思必驰科技股份有限公司
申请日： 2021-12-31 - 公布日： 2023-02-21 - 主分类号： H04N21/43 文献下载
摘要：本发明公开事件检测模型训练方法、事件检测系统、电子设备和存储介质，其中，一种事件检测模型训练方法，其中，对音频数据集额外进行视频标注，所述方法包括：使用音频处理模型对所述音频数据集中的音频进行特征提取得到音频特征；使用视频处理模型对所述音频数据集中的视频进行特征提取得到视频特征；采用以attention为基础的模型对所述音频特征和所述视频特征进行整合，分别独立输出音频事件预测和视频事件预测。本申请实施例针对已有的音频数据集进行改进，额外标注了视频弱标签，从而无需从头选用新的数据。同时，采用以attention为基础的模型结构对两模态进行有效融合，应对音视频不匹配的问题。
事件检测模型训练方法系统电子设备存储介质

[发明专利]去噪自动编码器训练方法和说话人识别系统-CN202010647893.4有效
发明人：俞凯;徐薛楠;丁翰林;王帅;吴梦玥 -专利权人：思必驰科技股份有限公司
申请日： 2020-07-07 - 公布日： 2022-11-18 - 主分类号： G10L17/00 文献下载
摘要：本发明公开一种去噪自动编码器训练方法，所述自动编码器包括六个全连接层，所述方法包括：对样本语音数据进行加噪处理得到混合语音数据；对所述混合语音数据进行嵌入特征提取得到混合嵌入特征；对所述样本语音数据进行所述嵌入特征提取得到样本嵌入特征；将所述混合嵌入特征输入至所述去噪自动编码器得到去噪嵌入特征；通过最小化所述去噪嵌入特征与所述样本嵌入之间的差距训练所述去噪自动编码器。本发明实施例通过训练一个去噪自动编码器，以加了噪声的用户声音特征为输入，干净的用户特征为标签进行训练，从而用这个自编码器达到降噪。能够提升对噪声的鲁棒性能，提升在嘈杂环境下识别用户的准确率。
自动编码器训练方法说话识别系统

[发明专利]在线语音活性检测系统改进方法和装置-CN202110592214.2有效
发明人：俞凯;徐薛楠;丁翰林;吴梦玥 -专利权人：思必驰科技股份有限公司
申请日： 2021-05-28 - 公布日： 2022-10-21 - 主分类号： G10L25/87 文献下载
摘要：本发明公开在线语音活性检测系统改进方法和装置，其中，一种在线语音活性检测系统改进方法，包括：将真实世界可用的语音活性检测系统作为教师模型；利用所述教师模型输出待测语音的帧级别的语音概率，其中，所述待测语音包括真实世界的语音数据；将所述帧级别的语音概率作为训练标签训练学生模型，其中，所述学生模型的双向门控循环单元改为单向门控循环单元；用所述学生模型给出的概率预测语音和非语音。
在线语音活性检测系统改进方法装置

[发明专利]音频合成方法、电子设备和存储介质-CN202210656027.0在审
发明人： 吴梦玥;俞凯;李光伟;徐薛楠;戴凌峰 -专利权人：思必驰科技股份有限公司
申请日： 2022-06-10 - 公布日： 2022-09-20 - 主分类号： G10L13/02 文献下载
摘要：本发明公开一种音频合成方法、电子设备和存储介质。在该方法中，获取待进行音频合成的目标语句所对应的文本特征向量；确定所述文本特征向量所对应的目标码本信息；基于预设的码本解码器，确定所述目标码本信息所对应的目标频谱图；根据所述目标频谱图，生成所述目标语句所对应的合成音频。由此，利用与语句的文本特征向量相对应的码本信息来重建频谱，能更轻量化且高效地完成频谱构建操作，保障了语音合成的可靠性和高质量；此外，直接依据不受约束的文本输入来产生音频，能够生成自然、生动的音频，实现了较佳的定量结果。
音频合成方法电子设备存储介质

[发明专利]音频文本对生成方法、电子设备和存储介质-CN202210656019.6在审
发明人： 吴梦玥;俞凯;徐薛楠 -专利权人：思必驰科技股份有限公司
申请日： 2022-06-10 - 公布日： 2022-09-09 - 主分类号： G06F16/64 文献下载
摘要：本发明公开一种音频文本对生成方法、电子设备和存储介质。具体地，该方法包括：获取原始音频；所述原始音频具有相应的音频事件标签；基于音频摘要模型，确定与所述音频事件标签相应的音频摘要；基于所述音频摘要和所述原始音频，生成音频文本对。由此，通过使用音频摘要模型，利用原始音频的音频事件标签来指导生成音频摘要，得到了匹配的平行音频文本数据。
音频文本生成方法电子设备存储介质

[发明专利]基于半平行语料的语音转换方法和系统-CN202011460130.5有效
发明人： 吴梦玥;徐志航;陈博 -专利权人：上海交通大学;光明日报社
申请日： 2020-12-11 - 公布日： 2022-08-26 - 主分类号： G10L13/033 文献下载
摘要：本公开涉及一种用于训练语音转换模型的方案，包括：在TTS预训练阶段，通过使用说话人的文本和声学特征数据训练TTS编码器、VC解码器和参考编码器来确定所述VC解码器和参考编码器的初始化网络参数；在VC预训练阶段，对所述VC解码器和所述参考编码器的网络参数进行初始化并、固定，并使用说话人的声学特征训练VC编码器以确定所述VC编码器的初始化网络参数；以及在VC训练阶段，对所述VC编码器的网络参数进行初始化，并使用原始说话人和目标说话人的声学特征训练所述VC编码器、所述VC解码器和所述参考编码器以确定经预训练的所述VC编码器、所述VC解码器和所述参考编码器的最终网络参数。
基于平行语料语音转换方法系统

[发明专利]音频摘要生成方法、系统和电子设备及存储介质-CN202210475958.0在审
发明人：俞凯;吴梦玥;谢泽宇;徐薛楠 -专利权人：思必驰科技股份有限公司
申请日： 2022-04-29 - 公布日： 2022-08-12 - 主分类号： G06F16/635 文献下载
摘要：本发明实施例提供一种音频摘要生成方法、系统和电子设备及存储介质。该方法包括：接收数据集，其中，数据集包括：音频摘要数据集和声音事件检测数据集；将声音事件检测数据集输入至音频事件检测模型，得到表示预估声音事件以及对应时序关系的音频标记；利用表示真实声音事件但无时间戳的弱标签对音频标记中的预估声音事件进行声音事件准确判断；若声音事件准确判断正确，将音频标记作为音频摘要数据集和声音事件检测数据集的统一标记；利用统一标记对数据集进行时序关系的数据增强，得到时序可控的音频摘要。本发明实施例可使用连接词来表示声音事件之间的时间关系。带有时序关系的语句对于音频的描述更贴近于人类的表达，进而提升用户的体验。
音频摘要生成方法系统电子设备存储介质

[发明专利]音频摘要数据增强方法、系统和电子设备及存储介质-CN202210475922.2在审
发明人：俞凯;吴梦玥;徐薛楠 -专利权人：思必驰科技股份有限公司
申请日： 2022-04-29 - 公布日： 2022-08-05 - 主分类号： G06F16/332 文献下载
摘要：本发明实施例提供一种音频摘要数据增强方法、系统和电子设备及存储介质。该方法包括：利用已有的音频摘要数据，预训练音频文本检索系统，其中，音频文本检索系统的输入为音频和文本，输出音频和文本为音频摘要的相似度；将文本训练集和真实未标注音频输入至音频文本检索系统，通过相似度确定真实未标注音频对应的文本摘要，基于真实未标注音频以及对应的文本摘要，生成数据增强的音频摘要数据。本发明实施例将音频‑文本检索和音频摘要这两个任务结合起来，进行数据增强，数据增强的音频摘要数据相比于已有的音频摘要数据都是全新的，能够在数据有限的条件下得到较好的音频‑文本检索和音频摘要模型。
音频摘要数据增强方法系统电子设备存储介质

[发明专利]声音分离的增强方法及系统-CN202110591841.4有效
发明人： 吴梦玥;李光伟;徐薛楠;丁翰林;俞凯 -专利权人：思必驰科技股份有限公司
申请日： 2021-05-28 - 公布日： 2022-07-12 - 主分类号： G10L21/0272 文献下载
摘要：本发明实施例提供一种声音分离的增强方法。该方法包括：从给定数量的各类别的弱标签音频数据集中，利用第一限制条件，确定各类别的第一有效音频片段；利用各类别的第一有效片段，训练通用声音分离系统；针对选定的类别的弱标签音频数据集，利用第二限制条件，确定选定的类别的第二有效音频片段；利选定的类别的第二有效片段以及其他类别的第一有效片段，训练类别适应增强系统。本发明实施例还提供一种声音分离的增强系统。本发明实施例在对通用声音分离系统进行训练后，采用分段重新选择的方法将系统学习所有指定的特定类别的增强系统。进一步消除对应类别中不必要的声音，提升了模型的鲁棒性，并且摆脱了对强标签数据的依赖。
声音分离增强方法系统

[发明专利]自动音频摘要生成方法和装置-CN202011623119.6有效
发明人：俞凯;吴梦玥;徐薛楠;丁翰林;谢泽宇 -专利权人：思必驰科技股份有限公司
申请日： 2020-12-31 - 公布日： 2022-07-08 - 主分类号： G06F16/64 文献下载
摘要：本发明公开自动音频摘要生成方法和装置，其中，一种自动音频摘要生成方法，包括：预训练声音事件检测模型，其中，所述声音事件检测模型包括音频特征提取部分和输出部分；将所述音频特征提取部分作为音频摘要自动生成模型的音频编码器；端到端地训练所述音频摘要自动生成模型。本申请实施例的方案通过声音事件检测任务上的预训练和迁移学习得到更好的音频编码器，从而生成更加准确的音频摘要描述，进而能够对任何新的音频生成对应的文本描述，自动地建立起音频—文本数据库，能够支持类似基于不限形式的自然语言的音频检索引擎的实际应用。
自动音频摘要生成方法装置

[发明专利]声音事件定位模型训练方法和装置-CN202011624897.7有效
发明人：俞凯;吴梦玥;徐薛楠;丁翰林 -专利权人：思必驰科技股份有限公司
申请日： 2020-12-31 - 公布日： 2022-06-10 - 主分类号： G10L15/06 文献下载
摘要：本发明公开声音事件定位模型训练方法和装置，其中，一种声音事件定位模型训练方法，包括：响应于输入音频和与所述输入音频对应的描述声音事件的短语，利用音频编码器将所述输入音频编码成特征向量序列，利用短语编码器将所述描述声音事件的短语编码成文本短语向量，其中，所述特征向量序列由所述音频中每个时刻的音频特征向量组成；计算所述文本短语向量与所述每个时刻的音频特征向量的相似度；基于相似度确定声音事件对应的开始时间和结束时间形成第一数据集的标注，基于对所述输入音频的声音事件标注形成第二数据集的标注；以及通过最小化所述第一数据集的标注和所述第二数据集的标注之间的损失训练所述音频编码器和所述短语编码器。
声音事件定位模型训练方法装置

[发明专利]音频文本检索模型训练方法、系统、电子设备和存储介质-CN202111683834.3在审
发明人：俞凯;吴梦玥;楼思余;徐薛楠 -专利权人：思必驰科技股份有限公司
申请日： 2021-12-30 - 公布日： 2022-04-22 - 主分类号： G06F16/683 文献下载
摘要：本发明公开音频文本检索模型训练方法、电子设备和存储介质，其中，一种音频文本检索模型训练方法，包括：通过音频预训练模型提取音频的音频特征，通过文字预训练模型提取句子的文字特征；分别对所述音频特征和所述文字特征进行池化转为对应的音频单向量嵌入和文字单向量嵌入；将所述音频单向量嵌入和所述文字单向量嵌入映射到同一空间；在所述同一空间内计算映射后的音频单向量嵌入和映射后的文字单向量嵌入的相似度，基于所述相似度与已知相似度的损失训练所述音频文本检索模型。
音频文本检索模型训练方法系统电子设备存储介质

[发明专利]音频摘要模型训练方法、系统、电子设备和存储介质-CN202111664811.8在审
发明人：俞凯;吴梦玥;徐薛楠 -专利权人：思必驰科技股份有限公司
申请日： 2021-12-31 - 公布日： 2022-04-12 - 主分类号： G06F16/635 文献下载
摘要：本发明公开音频摘要模型训练方法、系统、电子设备和存储介质，其中，一种音频摘要模型训练方法，包括：同时训练一个判别器和一个音频摘要模型，其中，所述判别器用于对对所述音频摘要模型输出的音频摘要和标注文字进行判别得到条件c，其中，所述条件c用于表征所述音频摘要与所述标注文字的相似度；通过对所述判别器和所述音频摘要模型进行对抗训练以使所述音频摘要模型能够输出给定条件的音频摘要。本申请实施例的方法同时训练一个对于输出文本的风格的判别器和一个音频摘要模型，通过对抗学习，能够迫使音频摘要模型能够输出给定条件的摘要，之后可以通过收集更加风格多变的标注文本，做到更加可控制的、准确的且多样化的音频摘要生成。
音频摘要模型训练方法系统电子设备存储介质

1
2
下一页»
尾页
共 22 条