[发明专利]语音训练数据获取、模型训练方法、装置及电子设备在审

专利信息
申请号: 202010561297.4 申请日: 2020-06-18
公开(公告)号: CN113903330A 公开(公告)日: 2022-01-07
发明(设计)人: 侯锐 申请(专利权)人: 大众问问(北京)信息科技有限公司
主分类号: G10L15/06 分类号: G10L15/06;G10L15/20;G10L15/22;G10L15/26
代理公司: 北京品源专利代理有限公司 11332 代理人: 孟金喆
地址: 100098 北京市海淀区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明实施例公开了一种语音训练数据获取、模型训练方法、装置及电子设备,包括:将语音数据存储设备中的语音数据以电信号的传播方式输入至目标设备;过信道处理所述语音数据;获取过信道处理后的过信道语音数据。本发明实施例能够降低语音训练数据的采集成本,提高语音训练数据的质量和通用性,进而提高语音识别模型的训练效率和识别效果。
搜索关键词: 语音 训练 数据 获取 模型 方法 装置 电子设备
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大众问问(北京)信息科技有限公司,未经大众问问(北京)信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/202010561297.4/,转载请声明来源钻瓜专利网。

同类专利
  • 语音识别模型的训练方法、装置、计算机设备和存储介质-202310847565.2
  • 杨碧云 - 中国银行股份有限公司
  • 2023-07-11 - 2023-10-27 - G10L15/06
  • 本申请涉及一种语音识别模型的训练方法、装置、计算机设备和存储介质。所述方法包括:实时获取语音数据,并根据所述语音数据的获取时间将所述语音数据分为旧数据集和新数据集;利用所述旧数据集对初始语音识别模型进行训练,获得训练后的语音识别模型;利用所述新数据集和预设的增量学习模型对训练后的语音识别模型进行优化,获得优化后的语音识别模型。采用本方法能够在使用过程中优化语音识别模型,进一步提高语音识别模型的准确率。
  • 语音交互的自适应优化方法及装置-202310969845.0
  • 吴正飞;叶德英;阴山慧;孙亚红;吴倩倩 - 奇瑞汽车股份有限公司
  • 2023-08-01 - 2023-10-27 - G10L15/06
  • 本发明涉及智能座舱技术领域,提供了一种语音交互的自适应优化方法,包括如下步骤:(1)激活语音控制功能,接收驾驶员录入的语音数据;(2)将语音数据转换成文本数据,提取文本数据中动词及名词,将动词及名字组成控制指令;(3)检测当前形成的控制指令是否有效,若检测结果为是,则将有效控制指令发送至对应的控制器,以控制对应对象执行指令对应的动作。通过针对每个驾驶员构建用于口音纠正的语音库,基于该语音库来辅助文本数据的转换,以降低口音导致的控制指令识别偏差,可以极大地提高控制指令识别的精准度。
  • 一种鲁棒的伪造语音算法的溯源方法及装置-202310746199.1
  • 王文超;陆镜泽;张鹏远;陈树丽 - 中国科学院声学研究所
  • 2023-06-21 - 2023-10-27 - G10L15/06
  • 本发明提供一种鲁棒的伪造语音算法的溯源方法及装置。该方法包括:利用训练数据集训练针对伪造语音算法的分类器;利用训练好的分类器处理所述训练数据集,得到所述分类器中的隐层针对所述各条伪造语音生成的隐层特征;利用训练好的分类器处理待检测的目标语音信号,得到所述分类器中的隐层生成的目标隐层特征和所述分类器的输出层输出的目标分类结果;分别计算所述目标隐层特征与若干隐层特征的距离,并确定其中的最短距离;当所述最短距离大于或等于预设阈值时,将所述目标分类结果作为所述目标语音信号的最终分类结果。如此,可以使用声码器生成伪造算法识别的训练集。引入最邻近节点算法,通过最邻近距离的分布区分训练集中不存在的分布外数据。
  • 语音识别方法、语音识别系统、计算机设备及存储介质-202310716585.6
  • 张旭龙;王健宗;程宁;朱可欣 - 平安科技(深圳)有限公司
  • 2023-06-16 - 2023-10-27 - G10L15/06
  • 本申请实施例提供了一种语音识别方法、语音识别系统、计算机设备及存储介质,属于金融科技技术领域。该方法包括:将具有预设情感类别的目标语音输入至预训练的多任务语音识别模型;通过第一语音编码子模型对目标语音进行语音编码得到初始语音特征;通过第一注意力子模型对初始语音特征进行语音注意力处理得到第一目标注意力特征;通过第二语音编码子模型对初始语音特征进行隐藏特征编码得到隐藏语音特征;通过第二注意力子模型对第一目标注意力特征和隐藏语音特征进行隐藏注意力处理得到第二目标注意力特征;通过多任务分类子模型对第二目标注意力特征进行语音分类得到目标语音标签。本申请实施例能够提高多任务语音识别的识别准确率。
  • 一种语音识别方法、系统、设备及介质-202310924233.X
  • 胡焱;邢士武;常绍盈;袭祥亮 - 浪潮金融信息技术有限公司
  • 2023-07-26 - 2023-10-27 - G10L15/06
  • 本发明公开了一种语音识别方法、系统、设备及介质,所述方法包括以下步骤:配置深度学习算法,搭建口音训练数据集,基于深度学习算法和口音训练数据集训练语音识别模型;响应于语音指令的输入,调用语音识别模型基于语速适配算法识别语音指令,得到识别结果;根据识别结果进行指令功能实现;本发明能够针对口音数据进行深度训练集的训练,针对语速语音数据进行不同读取速度的适配,提高语音识别的智能性,提升语音识别的适用范围以及精准性,支持多语言和方言的语音识别,提高适用性和普适性。
  • 基于检测错误加权编辑距离的语音关键词样本筛选方法-202110938700.5
  • 贺前华;严海康;兰小添;郑若伟 - 华南理工大学
  • 2021-08-16 - 2023-10-27 - G10L15/06
  • 本发明公开了基于检测错误加权编辑距离的语音关键词样本筛选方法,利用语音关键词识别模型训练过程中的输出信息,通过对样本关键词的检测错误进行加权,从而对解码序列与标签序列的编辑距离进行修订,使得重要样本可以得到更大的关注,从而筛选出不合格的语音关键词样本。本发明大大降低了人工审核所有样本的工作量,提升了筛选的效率。为语料库的清洗,构建一个高质量的语音数据集提供了一个有效的方案,减少了低资源小语种语料库建设的难度,同时也为深度神经网络提供了质量更高的语音关键词样本,推动低资源语种相关语音技术的研究发展。
  • 语音处理模型的训练方法和数据增强方法、装置及设备-202111083473.9
  • 赵情恩 - 北京百度网讯科技有限公司
  • 2021-09-15 - 2023-10-27 - G10L15/06
  • 本公开提供了一种语音处理模型的训练方法和增强数据的方法、装置、设备和介质,涉及人工智能领域,具体涉及语音识别、语音合成和深度学习技术领域。语音处理模型的训练方法的具体实现方案为:基于第一语音数据的第一声学特征,确定音频样本的第一音素特征;基于第一语音数据的第一声学特征、第一语音识别特征和第一音素特征,采用语音处理模型的韵律编码网络得到第一语音数据的第一韵律特征;基于第一声学特征、第一语音识别特征和第一韵律特征,采用语音处理模型的解码网络得到预测声学特征;以及基于预测声学特征和第一声学特征之间的差异,对语音处理模型进行训练。
  • 语音处理方法及装置、电子设备、计算机可读存储介质-202010630225.0
  • 林炳怀;王丽园 - 腾讯科技(深圳)有限公司
  • 2020-07-01 - 2023-10-27 - G10L15/06
  • 本申请的实施例揭示了一种语音处理方法及装置。该方法包括:获取针对语音进行识别处理得到的声学参数和识别文本;根据所述声学参数提取所述语音的声学特征,并根据所述识别文本提取所述语音的文本特征;根据所述语音关联的得分点类型,将所述声学特征和所述文本特征输入至与所述得分点类型相匹配的评分预测模型中,得到所述评分预测模型根据所述声学特征、所述文本特征以及所述得分点类型输出的针对所述语音的评分值,不同的得分点类型所匹配的评分预测模型是不同的。本申请实施例的技术方案能够避免出现由于语音关联的得分点类型与评分预测模型不匹配而引起的评分误差,提升语音评分的准确性。
  • 一种基于目标交换知识蒸馏的语音短时识别方法及装置-202310840471.2
  • 任晋;师一华;马广林;江学锋;杨金锋 - 深圳职业技术学院
  • 2023-07-07 - 2023-10-24 - G10L15/06
  • 本发明公开一种基于目标交换知识蒸馏的语音短时识别方法及装置,在通过有效性验证的所述识别网络中,将所述教师网络模型迁移到学生网络模型时,将所述教师网络模型中的目标类逻辑单元输出与所述学生网络模型的目标类逻辑单元输出进行交换,得到知识蒸馏后的所述学生网络模型;利用所述学生网络模型对目标语音进行识别。采用本发明,便捷地缓解教师模型对目标类潜在的过度自信,并使学生模型专注于从非目标类中提取知识。在识别性能和转录延迟之间实现了平衡,使短时应用场景中的相关人员有足够的时间做出即时有效的反应。
  • 内容识别、模型训练、数据处理方法、系统及设备-201910008803.4
  • 李鹏;王炎 - 阿里巴巴集团控股有限公司
  • 2019-01-04 - 2023-10-24 - G10L15/06
  • 本申请实施例提供一种内容识别、模型训练、数据处理方法、系统及设备。其中,内容识别方法包括:将待识别内容作为应用模型的输入,执行所述应用模型输出第一结果信息;基于所述第一结果信息,确定作为识别结果的内容标签;根据所述内容标签,执行相应的业务操作;其中,所述应用模型是训练模型完成训练后得到的,所述训练模型在训练过程中采用至少两种损失函数计算一次迭代后的至少两个损失值,并基于所述至少两个损失值完成参数的更新。本申请实施例提供的技术方案,内容识别准确率高,尤其对相似性较高的内容,如音近字和同音字,具有较好的区分力。
  • 音频分类模型的训练方法、音频分类方法、以及装置-202310891475.3
  • 江益靓;姜涛;赵伟峰 - 腾讯音乐娱乐科技(深圳)有限公司
  • 2023-07-19 - 2023-10-20 - G10L15/06
  • 本公开公开了一种音频分类模型的训练方法、音频分类方法、以及装置,属于计算机技术领域。所述方法包括:获取待训练的音频分类模型对应的类型标签层级关系;获取样本音频的音频数据和样本音频的基准分类结果;将样本音频的音频数据输入待训练的音频分类模型,得到预测分类结果;基于预测分类结果和基准分类结果之间的匹配情况,确定第一损失值;基于类型标签层级关系中存在关联关系的类型标签在预测分类结果中对应的匹配概率值,确定第二损失值;基于第一损失值和第二损失值,对待训练的音频分类模型进行训练,若满足预设训练结束条件则得到训练完成的音频分类模型。采用本公开,提高了训练完成的音频分类模型对各层级预测的准确性和一致性。
  • 语音信号识别方法、装置、电子设备和计算机可读介质-202311154546.8
  • 孙福尧 - 鹿客科技(北京)股份有限公司
  • 2023-09-08 - 2023-10-20 - G10L15/06
  • 本公开的实施例公开了语音信号识别方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括:采集用户的语音信号;对语音信号进行预处理,得到预处理后语音信号;对预处理后语音信号进行频域变换处理,以生成语音频谱图;根据语音频谱图,生成语音能量谱图;根据语音能量谱图,生成对数能量谱图;对对数能量谱图进行时域变换处理,得到特征参数序列;根据特征参数序列,确定差分特征参数序列;生成更新差分序列;根据更新差分序列,生成语音特征向量;对语音特征向量进行降维处理,以生成低维语音特征向量;将低维语音特征向量输入至语音信号识别模型中,得到语音信号识别结果。该实施方式可以提高语音信号识别的准确率。
  • 一种基于深度语音波形先验的对抗样本还原方法-202310846991.4
  • 陈阳;陈凯;汪哲贤 - 东南大学
  • 2023-07-11 - 2023-10-20 - G10L15/06
  • 本发明公开了一种即插即用的动态对抗样本防御方法——LowDDAWP‑Net,用于将对抗样本的转录恢复成良性转录。首先通过语音活动检测算法将对抗语音分割为静音片段和话语片段,然后通过静音片段提取对抗扰动的分布,通过重建分离使话语片段的对抗扰动被滤除,从而达到将对抗音频恢复为良性音频的目的,并且通过AMR压缩算法和基于语音不确定性的对数最小均方误差算法(Logmmse_SPU‑cohen)提取话语片段的结构信息,提高防御算法的拟合速度。通过本发明能够实现将有攻击性的对抗样本还原成良性样本,并且防御模块的参数动态更新,提高了语音识别系统的安全性能,为对抗样本的防御提供了一种有效的还原方法。
  • 语音识别模型的训练方法、装置、计算机设备及存储介质-202310251171.0
  • 谭风云;魏韬;马骏;王少军 - 平安科技(深圳)有限公司
  • 2023-03-09 - 2023-10-20 - G10L15/06
  • 本申请涉及人工智能,提供一种语音识别模型的训练方法。所述语音识别模型包含编码器和解码器,所述方法包括:提取训练样本语音数据的声学特征,得到待训练声学特征数据;将所述待训练声学特征数据输入至所述编码器的Conformer层进行计算处理,得到第一音频编码向量;将所述第一音频编码向量输入所述编码器的第一轻量级交换路由模块进行计算处理,得到第二音频编码向量;将所述第二音频编码向量输入所述解码器的Transformer层进行计算处理,得到第一文本编码向量;将所述第一文本编码向量输入所述解码器的第二轻量级交换路由模块进行计算处理,得到中英文语音识别结果;重复前述训练步骤,直至所有损失分别达到收敛,得到目标中英文语音识别模型。
  • 语音模型训练方法、语音识别方法、装置及电子设备-202310528347.2
  • 侯雷静;高莹莹;张世磊;邵琪杰 - 中国移动通信有限公司研究院;中国移动通信集团有限公司
  • 2023-05-11 - 2023-10-20 - G10L15/06
  • 本申请公开了一种语音模型训练方法、语音识别方法、装置及电子设备,涉及语音识别技术领域,以解决现有口音语音识别方法准确率较低的问题。该方法包括:获取语音样本集,语音样本集中每个语音样本均标注有字标签,且每个语音帧均标注有口音标签;利用语音样本集对口音语音识别模型进行训练,口音语音识别模型中的声学特征提取模块用于提取输入语音的声学特征,编码器用于将声学特征编码为声学表征向量,解码器用于依据声学表征向量预测拼音序列,口音分类器用于依据声学表征向量输出帧级口音类别信息,翻译器用于依据帧级口音类别信息翻译拼音序列,获得字序列。本申请实施例能够提高口音语音识别的准确率。
  • 模型更新方法、装置、设备及存储介质-202211351580.X
  • 杨一帆;陆柯峰;荣玉军;罗红 - 中移(杭州)信息技术有限公司;中国移动通信集团有限公司
  • 2022-10-31 - 2023-10-20 - G10L15/06
  • 本公开实施例公开了一种模型更新方法、装置、设备及存储介质,其中,所述方法包括:响应于接收用户终端发送的音频信息,利用平台端的平台模型对音频信息进行识别,得到第一识别结果;将第一识别结果发送至用户终端;接收用户终端上传的更新后的端侧模型;其中,更新后的端侧模型是用户终端基于第一识别结果和第二识别结果对初始的端侧模型进行更新得到的,第二识别结果是由端侧模型对音频信息进行识别得到的;对更新后的端侧模型和平台模型进行融合,得到更新后的平台模型。本公开实施例可以提高模型更新的效率和自动化程度。
  • 结合梯度引导的语音识别对抗防御方法及装置-202311154761.8
  • 肖韬睿 - 中国电子科技集团公司第十五研究所
  • 2023-09-08 - 2023-10-20 - G10L15/06
  • 本申请公开了结合梯度引导的语音识别对抗防御方法及装置,该方法包括:计算损失函数,所述损失函数包括连接时序类分类损失和最优运输损失,在有监督场景中,计算连接时序类分类损失,在无监督场景中,计算最优运输损失;计算样本间的余弦距离;基于所述余弦距离和所述连接时序类分类损失计算最大损失,并通过迭代降低所述连接时序类分类损失的值;结合利用所述连接时序类分类损失和所述最优运输损失,生成新的对抗样本,使用所述新的对抗样本对所述语音识别模型f进行对抗训练。本申请能够获得更强的对抗样本,将有助于进行对抗训练;同时在ASR模型输出时利用梯度引导来防御针对分类器的对抗攻击,提高ASR模型的鲁棒性。
  • 音频挑选的方法、装置、电子设备和可读存储介质-202110661720.2
  • 罗研朝;武卫东 - 北京捷通数智科技有限公司
  • 2021-06-15 - 2023-10-20 - G10L15/06
  • 本申请公开了一种音频挑选方法、装置、电子设备和可读存储介质,属于人工智能领域。音频挑选方法,包括:获取部分音频,利用预设的第一模型识别所述音频,生成音频转写结果,根据所述音频转写结果生成第二模型,根据所述音频转写结果对应于所述第一模型与第二模型的概率不同,对所述音频进行挑选。从而解决了现有技术在挑选音频时,挑选到识别较好的音频,降低了标注的有益效果和收益的问题。
  • 一种语音识别模型的训练方法、使用方法及训练系统-202210928141.4
  • 王满洪 - 荣耀终端有限公司
  • 2022-08-03 - 2023-10-20 - G10L15/06
  • 本申请实施例应用于人工智能语音识别领域,提供一种语音识别模型的训练方法、使用方法及训练系统。包括获取训练样本;判断样本文本的当前字符种类,当样本文本的当前字符种类为仅中文字符时,利用预设词库对样本文本分词,得到第一分词结果;在字符长度大于1的第一文本单元前插入第一标识符,以及在字符长度等于1的第一文本单元前插入第二标识符,得到第二分词结果;对每个第一标识符之后的第一文本单元按字切分,并在切分后的相邻两个字符之间插入分隔符,得到第一训练文本;根据样本音频和第一训练文本训练初始语音识别模型。本申请实施例的技术方案能够将基于字粒度的文本单元伪装成基于词粒度的文本单元,提高语音识别模型的识别效果。
  • 一种语音识别方法、装置、电子设备及存储介质-202310308200.2
  • 赵晴 - 镁佳(北京)科技有限公司
  • 2023-03-27 - 2023-10-20 - G10L15/06
  • 本发明提供了一种语音识别方法、装置、电子设备及存储介质,其中,一种语音识别方法包括:获取音频数据;对所述音频数据进行特征提取,得到音频特征信息;将所述音频特征信息输入至待训练语音识别模型进行训练,输出第一概率矩阵;将所述第一概率矩阵经过Mask掩码处理,生成第二概率矩阵,所述第二概率矩阵为有效音频时间的概率矩阵;根据所述第二概率矩阵进行损失计算,并得到语音识别模型;利用所述语音识别模型对待识别音频数据进行识别,得到语音识别结果。本发明可解决现有语音识别在数字信号处理器等硬件设备上的识别不准确的缺陷的技术问题。
  • 一种边缘端运行的接发列车标准用语识别方法-202310812874.6
  • 姜磊;璩泽刚;卜禹;汤伟伟 - 南京富岛信息工程有限公司
  • 2023-07-04 - 2023-10-17 - G10L15/06
  • 本发明公开了一种边缘端运行的接发列车标准用语识别方法,首先根据接发列车业务建立标准用语库;接着采集值班员接发列车音频数据,依据标准用语库,清洗出作业音频及噪声音频;然后基于改进的深度学习语音生成算法输入标准用语和噪声音频数据合成虚拟人接发列车音频数据;进一步将清洗出的值班员作业音频数据、合成的接发列车音频数据和开源音频训练集,整合成融合数据集;最后将数据集划分成训练集、验证集、测试集送入轻量级端到端语音识别网络训练接发列车标准用语识别模型,部署到边缘端运行。该方法抗非标准用语和噪声干扰能力强能准确实时识别出值班员作业过程中接发列车语音话术,为监管接发列车标准化作业提供坚实的技术支撑。
  • 一种基于多版本预处理序列融合的对抗样本还原方法-202310846992.9
  • 陈阳;陈凯;汪哲贤 - 东南大学
  • 2023-07-11 - 2023-10-13 - G10L15/06
  • 本发明公开了一种即插即用的语音对抗样本防御方法,首先通过高斯噪声对输入的语音进行平滑处理,生成具有细微不同的平滑语音序列,然后将平滑语音序列输入到多版本预处理算法模块,用不同实现的压缩算法和增强算法对平滑语音进行处理,生成多版本语音序列;接着将生成的多版本语音序列输入到语音识别系统中,获取对应的语音转录文本序列;最后通过众数投票权重分配(Mode Voting Weight Allocation,MVWA)方法对各个文本序列进行权重分配,然后根据权重以识别器输出投票错误减少(Recognizer Output Voting ErrorReduction,ROVER)算法对输入语音的良性转录进行估计。通过本发明能够实现将有攻击性的对抗样本还原成良性样本,提高了语音识别系统的安全性能,为对抗样本的防御提供了一种有效的还原方法。
  • 重打分模型训练方法、语音识别方法及相关装置-201911413152.3
  • 李安;陈江;胡正伦;傅正佳 - 广州市百果园信息技术有限公司
  • 2019-12-31 - 2023-10-13 - G10L15/06
  • 本发明实施例公开了一种重打分模型训练方法、语音识别方法及相关装置,训练方法包括:获取语音数据样本的多个语音识别结果和语音数据样本的第一标签,第一标签为预先标注的标签;获取语音识别结果在多个不同语言模型下的分数;基于语音识别结果、分数和第一标签获得语音数据样本的样本特征向量和第二标签;采用样本特征向量和第二标签训练模型得到重打分模型。本发明实施例挖掘第二标签和不同语言模型打分的分数隐含的内在关联,以得到不同语言模型的打分分数的最佳组合方式,排除了人为主观性因素,确保了语音识别结果的准确度,即时各个语言模型打分机制改变,也无需修改各个分数之间的权重,提高了重打分模型的通用性和普适性。
  • 一种教学声场环境的去噪方法-202310430698.X
  • 吴晓涛;张旺宝;谭国燊;李志华 - 珠海谷田科技有限公司
  • 2023-04-20 - 2023-10-13 - G10L15/06
  • 本申请适用于语音处理技术领域,提供了一种教学声场环境的去噪方法,该方法包括:获取待处理音频,其中,待处理音频为教学声场环境中的音频;提取待处理音频中的第一音频特征向量;将第一音频特征向量输入至预先训练的噪音去除目标模型,得到预测音频;对预测音频进行音频去噪判定,将判定结果为音频去噪成功对应的预测音频作为目标音频。可见,本申请实施例可以有效去除教学声场环境中的噪音。
  • 一种语音唤醒与检测模型的生成方法、装置、设备及介质-202310619710.1
  • 李蒙 - 镁佳(北京)科技有限公司
  • 2023-05-29 - 2023-10-13 - G10L15/06
  • 本发明公开了一种语音唤醒与检测模型的生成方法、装置、设备及介质,方法包括:获取第一语音数据集和第二语音数据集,第一语音数据集为无标注语音数据集,第二语音数据集为基于语音合成技术生成的语音数据集;将第一语音数据集输入至预构建的语音模型中,采用自监督预训练的方式对语音模型进行训练,生成语音预训练模型;将第二语音数据集输入至语音预训练模型中,对语音预训练模型进行多任务学习训练,生成语音唤醒与检测模型,多任务学习训练包括语音检测训练和语音唤醒训练。本发明通过上述方式,即可通过无标注的方式实现唤醒,降低唤醒对人工标注的依赖性,从而使得唤醒成本变低。
  • 基于双流自监督网络的语音识别方法、装置、设备及介质-202310874348.2
  • 明悦;范春晓;吕柏阳;胡楠楠;周江琬 - 北京邮电大学
  • 2023-07-17 - 2023-10-10 - G10L15/06
  • 本发明提供了一种基于双流自监督网络的语音识别方法、装置、设备及介质,包括:利用编码与量化模块对目标声学特征进行编码与量化获得语音向量;利用重构预测模块对语音向量进行重构预测获得第一语音表示;同时,利用对比预测模块中的自回归模型对语音向量进行预测获得第二语音表示;利用特征融合子模块对第一语音表示与第二语音表示进行融合获得融合后语音表示;基于目标声学特征,结合第一子模型与CTC模块中的连接时序分类器对融合后语音表示进行识别获得转录文本。本发明能够关注语音详细的上下文信息及语音不同特征之间的差异信息,提高自监督学习的鲁棒性,有效结合生成式和判别式自监督学习的互补优势。
  • 语音识别模型训练方法、语音识别方法、装置和设备-202310882736.5
  • 徐雪;杨洁琼;江文乐;罗亚明 - 中国工商银行股份有限公司
  • 2023-07-18 - 2023-10-10 - G10L15/06
  • 本申请涉及一种语音识别模型训练方法、语音识别方法、装置、计算机设备和存储介质,可应用于人工智能技术领域。所述语音识别模型训练方法包括:获取样本规范语音的第一音频特征,以及样本比对语音的第二音频特征;将第一音频特征以及第二音频特征输入待训练的语音识别模型的编码器,得到对应的第一编码特征,以及第二编码特征;基于第一编码特征与第二编码特征之间的差异,对编码器进行训练,得到训练完成的编码器;基于训练完成的编码器,对待训练的语音识别模型中的分类器进行训练,得到训练完成的分类器,将训练完成的编码器以及训练完成的分类器,作为训练完成的语音识别模型。采用本方法能够更准确的识别金融网点员工用语是否规范。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top