|
钻瓜专利网为您找到相关结果 24个,建议您 升级VIP下载更多相关专利
- [发明专利]一种通话音频处理方法及装置-CN202310027081.3在审
-
先永春;姚树杰
-
鼎富新动力(北京)智能科技有限公司
-
2023-01-09
-
2023-05-16
-
G10L15/26
- 本申请提供一种通话音频处理方法及装置。所述方法包括:对通话音频进行声道分离并提取有效语音片段,识别出对应的会话文本后,将会话文本按照时间顺序进行排列,基于每个会话文本对应的角色和时间顺序提取问答对,利用语言理解模型来对问答对进行推理和预测,生成问答对的问答类型和问答结果,最终将问答相关性较高的问答对的问答结果按照问答类型聚类后,得到通话音频的关键信息。整个方法基于问答对对通话音频进行分析,更加贴近实际应用场景,结合语言理解模型对通话音频的关键信息进行自动提取,最终整理出通话音频对应的关键信息,可以极大地提升作业效率,也可以避免在智能语音系统以外进行沟通时信息的缺失,有利于业务整体进展把控。
- 一种通话音频处理方法装置
- [发明专利]一种语音合成方法和装置-CN202310078716.2在审
-
樊冯飞;姚树杰;赵言;先永春
-
鼎富新动力(北京)智能科技有限公司
-
2023-01-17
-
2023-05-12
-
G10L13/027
- 本申请提供了一种语音合成方法和装置,能够提升合成的语音的拟人化程度,使得合成的语音情感丰富。该方法包括:获取与训练文本对应的训练音频及标准的梅尔频谱;根据训练文本和训练音频,提取训练音频中每个音素的标准的语音特征;根据训练文本和训练音频,确定训练文本的情感标签序列,情感标签序列包含的数字表征训练文本中相应位置的文字是否用于表达情感;根据标准的梅尔频谱、标准的语音特征、情感标签序列、训练文本对应的音素标识序列和说话人的标识,确定训练数据;基于训练数据训练语音合成模型,使得语音合成模型学习到每个音素的语音特征,以及每个文字的情感特征;根据目标文本和训练好的语音合成模型,确定目标文本对应的合成语音。
- 一种语音合成方法装置
- [发明专利]一种韵律标注方法、装置及应用-CN202211370337.2在审
-
赵言;姚树杰;樊冯飞
-
鼎富新动力(北京)智能科技有限公司
-
2022-11-03
-
2023-03-21
-
G10L13/10
- 本申请提供了一种韵律标注方法、装置及应用,能够使录制的语音音频韵律和标注文本韵律精确匹配。方法包括:获取特定说话人根据经过韵律标注的第一文本录制的第一语音数据,第一文本包括多个韵律标签,不同韵律标签表示的停顿的持续时长不同;根据第一语音数据和第一文本,统计多个韵律标签中每一韵律标签的持续时长,以获取每一韵律标签的持续时长的统计数据;根据每一韵律标签对应的统计数据,确定每一韵律标签持续时长的取值范围;获取特定说话人根据未经过韵律标注的第二文本录制的第二语音数据;根据第二语音数据获取第二语音数据各个停顿的持续时长,根据每一韵律标签的持续时长的取值范围和各个停顿的持续时长,对第二文本进行韵律标注。
- 一种韵律标注方法装置应用
- [发明专利]一种音频生成方法及装置-CN202210792253.1在审
-
赵言;樊冯飞;姚树杰
-
鼎富新动力(北京)智能科技有限公司
-
2022-07-05
-
2022-10-11
-
G10L13/02
- 本申请实施例提供一种音频生成方法及装置,方法包括获取第一话术集,基于预设的语言模型对第一话术集中的话术语料进行顺滑度检查,确定目标语料,并生成包含目标语料的第二话术集,在预设的录制环境下对第二话术集进行录制,得到初始音频数据集。将初始音频数据集与预设的公开数据集进行归一化处理,得到目标音频数据集。本申请能够基于目标业务场景生成第二话术集,使得第二话术集中的话术语料与目标业务场景相贴合。还可以在预设的录制环境下对第二话术集进行录制,可以保证录制效果。此外,能够基于初始音频数据集和公开数据集共同生成目标音频数据集,该目标音频数据集应用至语音合成模型训练过程中可以保证训练的准确性。
- 一种音频生成方法装置
- [发明专利]一种语音识别方法及系统-CN202210787025.5在审
-
王鹏雷
-
鼎富新动力(北京)智能科技有限公司
-
2022-07-04
-
2022-10-04
-
G10L15/04
- 本申请提供一种语音识别方法及系统。所述方法包括:对于目标语音数据流与缓存语音数据流共同组成的待处理语音数据流,根据语音活动检测参数,利用预设GMM模型从待处理语音数据流中提取非静音的有效数据帧,对有效数据帧依次进行降噪处理、文本数据转换以及语义识别,得到当前语义识别率,在当前语义识别率小于第一预设阈值的情况下,分别调整语音活动检测参数、缓存指令和降噪参数。整个方法可以根据语音识别率实时调整语音活动检测参数、缓存参数以及降噪参数等配置参数,从而可以根据实际对话场景不断修正配置参数,使得配置参数在对话场景发生变化时能够及时地适应,语音提取准确性较高,进而语义识别率也较高。
- 一种语音识别方法系统
|