[发明专利]一种语种识别方法及装置在审

申请号：	202010413448.1	申请日：	2020-05-15
公开（公告）号：	CN113744717A	公开（公告）日：	2021-12-03
发明（设计）人：	王宪亮;蔡寅翔;索宏彬	申请（专利权）人：	阿里巴巴集团控股有限公司
主分类号：	G10L15/00	分类号：	G10L15/00;G10L15/02;G10L15/16;G10L25/24;G06N3/04;G06N3/08
代理公司：	北京清源汇知识产权代理事务所(特殊普通合伙) 11644	代理人：	冯德魁;张艳梅
地址：	英属开曼群岛大开***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语种识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种语种识别方法，包括：获取待识别音频数据；获取与所述待识别音频数据对应的音素特征信息；获取与所述音素特征信息对应的目标嵌入式向量表示信息，其中，所述目标嵌入式向量表示信息是对所述音素特征信息进行嵌入式向量表示后获得的信息；根据所述目标嵌入式向量表示信息，获得目标语种，其中，所述目标语种信息用于表示所述待识别音频数据对应的语种类别。所述方法通过获取与待识别音频数据对应的、用于表征待识别音频数据的发音分布的音素特征信息，并通过对提取的音素特征信息进行嵌入式向量表示，可以更准确、快速的识别出待识别音频数据对应的语种类别。

技术领域

本申请涉及计算机技术领域，具体涉及一种语种识别方法、装置、电子设备及存储设备。本申请还涉及一种音素特征提取模型的获得方法、装置、电子设备及存储设备。本申请还涉及一种嵌入式向量表示模型的获得方法、装置、电子设备及存储设备。本申请还涉及一种语音服务提供方法、装置、电子设备及存储设备。本申请还涉及一种语音识别方法、装置、电子设备及存储设备。

背景技术

随着计算机技术的不断发展，在日常生活中，用户可以与提供各种语音服务的计算设备进行语音交互，进而方便的获得该计算设备提供的相应服务。

目前，计算设备在获得用户或其它计算设备发出的音频数据后，一般是并行的使用与不同语种类别对应的多个音频识别服务来识别音频数据的内容，并根据识别结果，选用最合适的文本内容来向用户或其它计算设备提供与该音频数据对应的服务。例如，在智能客服系统、智能家居系统、自助语音售票服务、自动语音翻译系统以及语音导航系统等这些可以通过语音进行交互的系统中，与这些系统对应的计算设备一般就是通过上述方式来识别获得的音频数据的内容，并向用户提供对应的服务。然而，这种方式由于同时并行的运行多个音频识别服务，因此，存在过多占用计算资源的问题，并不适应于含有较多语种的语音服务中；由此可知，如果在提供语音服务时，能够快速、准确的识别出与音频数据对应的语种类别，然后再通过与识别出的语种类别对应的音频识别服务来识别该音频数据的内容，那么将能极大的增加音频数据的识别速度和识别准确度。

然而，目前的用于识别音频数据的语种类别的方法，一般或是仅基于声学特征的方法，例如，基于梅尔频率倒谱系数(MFCC，Mel-scaleFrequency Cepstral Coefficients)特征、梅尔滤波器组(Fbank，Mel-Frequency Filter Bank)特征及其移位差分谱等来识别音频数据对应的语种类别；或是仅基于音素特征的方法，例如，采用音素识别器并结合语言模型(PRLM，Phoneme Recognition Language Modeling)的方法，或者并行音素识别器并结合语言模型(PPRLM，Parallel Phoneme Recognition Language Modeling)的方法等来识别音频数据对应的语种类别；又或是直接使用深度神经网络模型来提取音频数据的特征信息，并根据特征信息识别音频数据对应的语种类别，这类方法在识别长时音频数据就存在识别速度慢以及识别准确度低的问题，而在需要实时响应的短时语音交互场景下，其在识别短时音频数据时，更是存在识别速度慢以及识别准确度低的问题。

发明内容

本申请实施例提供一种语种识别方法，以解决现有技术存在的不能快速、准确的识别出音频数据对应的语种类别的问题。

本申请实施例提供一种语种识别方法，包括：获取待识别音频数据；获取与所述待识别音频数据对应的音素特征信息；获取与所述音素特征信息对应的目标嵌入式向量表示信息，其中，所述目标嵌入式向量表示信息是对所述音素特征信息进行嵌入式向量表示后获得的信息；根据所述目标嵌入式向量表示信息，获得目标语种，其中，所述目标语种信息用于表示所述待识别音频数据对应的语种类别。

可选的，所述获取与所述待识别音频数据对应的音素特征信息，包括：获取与所述待识别音频数据对应的声学特征信息；将所述声学特征信息输入到目标音素特征提取模型中，获取所述音素特征信息，其中，所述目标音素特征提取模型是用于获取与音频数据对应的音素特征信息的模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司，未经阿里巴巴集团控股有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010413448.1/2.html，转载请声明来源钻瓜专利网。

上一篇：一种飞机货舱拦阻网结构及设计方法
下一篇：一种基于身份识别的园区一卡通系统及方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种语种识别方法及装置在审

专利文献下载