[发明专利]一种语音识别中快速标注声学模型训练数据的方法在审

专利信息
申请号: 202210258526.4 申请日: 2022-03-16
公开(公告)号: CN114694639A 公开(公告)日: 2022-07-01
发明(设计)人: 吴科;徐正虹;吴立楠 申请(专利权)人: 北京智齿众服技术咨询有限公司
主分类号: G10L15/04 分类号: G10L15/04;G10L15/06;G10L15/26;G06F16/35;G06F40/166;G06K9/62
代理公司: 北京知呱呱知识产权代理有限公司 11577 代理人: 胡乐
地址: 100070 北京市丰台区南四环西路*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 语音 识别 快速 标注 声学 模型 训练 数据 方法
【说明书】:

发明公开了一种语音识别中快速标注声学模型训练数据的方法。该方法运用已训练的基础的声学模型进行语音识别工作;对记录的识别错误的词语和句子,使用音频切割工具进行切割,得到识别错误的音频文件WrongPart;将预先准备的正确原始文本句子中对应于所述WrongPart的词语删除后得到原始文本中剩余的文本ResidueScript,并标记删除位置;将相应的音频文件ResidueWav与WrongPart按照原始文字位置进行组合,得到一条声学模型的标注数据,最终多条不同的TrainFile组成用于声学模型微调的训练集,用于声学模型的微调,从而高效地达到修正ASR易错部分的目的。

技术领域

本申请涉及语音识别技术领域,具体涉及一种语音识别中声学模型的训练数据快速准备方法。

背景技术

语音识别技术已成为当前人工智能应用的主要技术,其主要解决的问题是通过计算机将语音转化为文本,对给定的波形序列得到相应的单词或字符序列。一般来讲,语音识别系统主要由前端处理、声学模型、语言模型和解码器四个模块组成。其中前端处理主要包括:端点检测、降噪、特征提取三个方面的操作。声学模型、语言模型和解码器属于后端处理,声学模型主要用来构建语音和输出声学单元之间的概率映射关系,语言模型主要用来描述不同字词之间的概率搭配关系,使识别出的句子更通顺自然。

语音识别系统构建的过程整体上包括:训练和识别两部分,训练具体是指对声学模型和语言模型的训练,一般离线进行。识别为将用户的语音识别为文本的实际工作过程,一般在线进行。

在对声学模型的训练中,需要大量的样本标注音频数据,该数据的获取主要通过人工完成,耗时耗力,成本高昂。而若直接采用语音识别后的标注音频数据作为声学模型的训练样本,会由于语音识别出的标注音频数据质量不稳定,导致使用其作为样本训练基础的声学模型的准确率不高。

另外,得到基础的声学模型之后,可能由于某些类别的词语的训练数据不足,引起识别错误。所以,可继续添加合适的易错样本作为训练数据,在已有的语音识别模型的基础上继续微调以提高识别效果。易错样本的准备,通常也只是手动收集,因而准备此类训练数据的过程较慢,影响模型快速迭代优化,导致难以高效提高语音识别的准确率。

发明内容

基于此,针对上述技术问题,本发明提供一种语音识别中快速标注声学模型训练数据的方法。

第一方面,一种语音识别中快速标注声学模型训练数据的方法,包括:

运用已训练的基础的声学模型进行语音识别工作,其中会出现识别错误的词语和句子;

对记录的识别错误的词语和句子,使用音频切割工具进行切割,得到识别错误的音频文件,记为WrongPart,WrongPart包含识别的一个或多个词语;

将预先准备的正确原始文本句子中对应于所述WrongPart的词语删除,并标记删除位置;删除后得到的原始文本中剩余的文本,记为ResidueScript;

利用语音合成系统将所述ResidueScript转换为音频文件,记为ResidueWav,将ResidueWav与WrongPart按照原始文字位置进行组合,使WrongPart填补所述删除位置,得到一条声学模型的标注数据,记为TrainFile;

多条不同的TrainFile组成用于声学模型微调的训练集TrainFiles。

上述方案中,可选地,所述预先准备的正确原始文本句子,来自按照以下方式准备的文本句子集:

根据设定行业的业务预先进行业务分类,建立常见的业务类型,每种业务类型下获取对应的文本句子集合备用;

对于不同业务类型的文本句子,进行切割和再组合,每个业务类型得到扩增后的文本句子,共同组成该业务类型下的文本句子集。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智齿众服技术咨询有限公司,未经北京智齿众服技术咨询有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210258526.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top