[发明专利]基于语言独立女性语音数据的男性声学模型适应有效

申请号：	201110408306.7	申请日：	2011-12-09
公开（公告）号：	CN102543077A	公开（公告）日：	2012-07-04
发明（设计）人：	G.塔尔瓦;R.琴加尔瓦拉延	申请（专利权）人：	通用汽车有限责任公司
主分类号：	G10L15/06	分类号：	G10L15/06
代理公司：	中国专利代理(香港)有限公司 72001	代理人：	原绍辉;杨楷
地址：	美国密***	国省代码：	美国;US
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于语言独立女性语音数据男性声学模型适应
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明总体涉及自动语音识别。

背景技术

自动语音识别（ASR）技术使得配备有麦克风的计算设备能够解释语音，从而提供对传统人-机输入设备（诸如键盘和小键盘）的替代方式。ASR系统使用声学模型来识别语音。声学模型是对构成语音话语，如词，或音素或其他子词的一个或多个声音的统计表示。通过训练过程产生话语的声学模型，训练过程包括记录在多个语境下来自许多人的话语的多个实例的音频，以及将这些话语实例编译成话语的一个或多个统计表示。例如，可以通过50个男人和50个女人每人在一个或多个环境下说出每个数字10次来训练用于数字0-9的声学模型。因此，对于每个数字，将会有500个女性话语实例和500个男性话语实例。每个数字的所有话语实例可以被编译成每个数字的一个或多个不区分男女的统计表示，或者每个数字的女性话语实例可以被编译成每个数字的一个或多个女性统计表示且每个数字的男性话语实例可以被编译成每个数字的一个或多个男性统计表示。

但是ASR遇到的问题是对于某些人口统计的女性说话者来说可能有很少甚至没有训练数据可用。例如，在一些人口中，女性声学模型训练数据很难或无法获得。在另一示例中，在一些人口中，许多女性目前不驾驶，因此缺乏统计学上有意义的车内女性语音数据。这种数据的缺乏使得很难改善对于某些女性用户的语音识别性能。

发明内容

根据本发明的一个实施例，提供一种产生在自动语音识别中使用的代理声学模型的方法。所述方法包括步骤：(a) 根据经由麦克风从第一语言的男性说话者接收的语音训练声学模型；以及(b) 响应于来自第二语言的女性说话者的语言独立语音数据使在步骤(a)中训练的声学模型适应，以产生代理声学模型，从而在对来自第一语言的女性说话者的话语的语音识别运行时间期间使用。

根据本发明的另一实施例，提供一种自动语音识别的方法，包括下述步骤：(a)经由麦克风从第一语言的女性说话者接收话语；(b)使用自动语音识别预处理器对该话语进行预处理，以产生声学特征向量；(c)确定所接收话语的至少一个共振峰频率；(d)确认来自第二语言的女性说话者的语音数据中的多个共振峰频率带中的与步骤(c)确定的至少一个共振峰频率相对应的至少一个；以及(e)响应于确认步骤(d)使根据来自第一语言的男性说话者的语音训练的声学模型适应，以产生用于第一语言的女性说话者的代理声学模型。

本发明还提供了如下方案：

方案1. 一种产生用在自动语音识别中的代理声学模型的方法，包括步骤：

(a) 根据经由麦克风从第一语言的男性说话者接收的语音训练声学模型；以及

(b) 响应于来自第二语言的女性说话者的语言独立语音数据使在步骤(a)中被训练的声学模型适应，以产生代理声学模型，从而在对来自第一语言的女性说话者的话语的语音识别运行时间期间使用。

方案2. 如方案1所述的方法，其中，在语音识别运行时间之前实施适应步骤(b)。

方案3. 如方案1所述的方法，其中，在语音识别运行时间期间对来自第一语言的女性说话者的话语实施适应步骤(b)。

方案4. 如方案3所述的方法，其中，响应于识别出来自第二语言的女性说话者的语音数据中的多个共振峰频带中的与在来自第一语言的女性说话者的话语中确定的至少一个共振峰频率相对应的至少一个，来实施适应步骤(b)。

方案5. 如方案4所述的方法，其中，响应于识别出来自第二语言的女性说话者的语音数据中的多个共振峰频带中的所述至少一个，通过对在步骤(a)中被训练的声学模型进行频率规整来实施适应步骤(b)。

方案6. 如方案4所述的方法，其中，在来自第一语言的女性说话者的话语中确定的至少一个共振峰频率是所接收的话语中的多个共振峰频率的平均。

方案7. 如方案6所述的方法，其中，所接收的话语中的多个共振峰频率是来自第一共振峰、第二共振峰或第三共振峰中的至少一个。

方案8. 如方案6所述的方法，其中，确定步骤(c)的至少一个共振峰频率包括第一共振峰、第二共振峰和第三共振峰。

方案9. 一种自动语音识别的方法，包括步骤：