[发明专利]语言模型的训练方法及装置、对话语音识别方法及装置在审
申请号: | 202111531961.1 | 申请日: | 2021-12-14 |
公开(公告)号: | CN116312487A | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 杨麒弘;周绍钧;唐俊杰 | 申请(专利权)人: | 阿里巴巴新加坡控股有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/02 |
代理公司: | 北京开阳星知识产权代理有限公司 11710 | 代理人: | 郭鑫 |
地址: | 新加坡珊顿道*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语言 模型 训练 方法 装置 对话 语音 识别 | ||
本公开实施例涉及一种语言模型的训练方法及装置、对话语音识别方法及装置。本公开的至少一个实施例中,收集用于描述地物元素的兴趣点,而地物元素可以是现实世界的任意一个位置点,比如大厦、商铺、餐馆、公交站牌等,即,兴趣点表达的是现实世界的地点,因此,利用兴趣点修改训练语料中的事件发生地,既可以生成包括兴趣点的新语料,同时不会改变语料的含义,与通用的语料相比,新语料包含了网约车等场景会经常出现的对话元素,即兴趣点;进而利用包括兴趣点的新语料训练得到语言模型,使得语言模型能够提高特殊场景下的对话语音识别准确性,如网约车场景下对话语音中兴趣点的识别。
技术领域
本公开实施例涉及共享出行技术领域,具体涉及一种语言模型的训练方法及装置、对话语音识别方法及装置。
背景技术
随着自动语音识别(Automatic Speech Recognition,ASR)技术的发展,提高了语音识别的准确性。ASR技术中所使用的声学模型和语言模型的训练依赖于大量的训练语料,目前的训练语料主要是基于通用的语料(如客服对话、标注人员录音等)进行标注得到。
然而,通用的语料中包含的特殊场景下的信息较少,例如,出行场景的对话中经常会出现现实世界的地物元素,而现有的通用的语料中包含的地物元素较少,其中,所述地物元素可以为现实世界的地图中的一栋大厦、一家商铺、一处景点等。因此,目前的ASR技术在特殊场景下存在语音识别准确性不高的问题,例如,针对出行场景对话中出现的地物元素,存在识别准确性不高的问题。
另外,ASR技术中所使用的声学模型和语言模型的优化迭代也需要大量的训练样本,然而高质量的训练样本的人工标注成本较高。
上述对问题的发现过程的描述,仅用于辅助理解本公开的技术方案,并不代表承认上述内容是现有技术。
发明内容
为了解决现有技术存在的至少一个问题,本公开的至少一个实施例提供了一种语言模型的训练方法及装置、对话语音识别方法及装置。
第一方面,本公开实施例提出一种语言模型的训练方法,所述语言模型用于对话语音的识别,所述方法包括:
预先收集一个或多个用于描述地物元素的兴趣点;
获取用于训练语言模型的第一训练语料,第一训练语料中包括事件及事件发生地;
从收集的一个或多个兴趣点中选取兴趣点,并基于选取的兴趣点修改第一训练语料中的事件发生地,得到第二训练语料;
至少基于第二训练语料,训练语言模型。
在一些实施例中,预先收集一个或多个用于描述地物元素的兴趣点包括:
获取一段以上的原始语音和/或一个以上的原始语料;
对一段以上的原始语音进行识别,得到原始语音对应的原始语料;
对原始语料进行文本分析,确定一个或多个兴趣点。
在一些实施例中,获取用于训练语言模型的第一训练语料包括:
从一个或多个原始语料中选择第一训练语料;和/或,
获取包括事件及事件发生地的语料作为第一训练语料。
在一些实施例中,从收集的一个或多个兴趣点中选取兴趣点包括:
从收集的一个或多个兴趣点中通过随机采样,选取兴趣点。
在一些实施例中,基于选取的兴趣点修改第一训练语料中的事件发生地,得到第二训练语料包括:
用选取的兴趣点替换第一训练语料中的事件发生地,得到第二训练语料。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴新加坡控股有限公司,未经阿里巴巴新加坡控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111531961.1/2.html,转载请声明来源钻瓜专利网。