[发明专利]语音识别方法及服务器在审
申请号: | 202210740207.7 | 申请日: | 2022-06-28 |
公开(公告)号: | CN115132176A | 公开(公告)日: | 2022-09-30 |
发明(设计)人: | 刘研 | 申请(专利权)人: | 广州小鹏汽车科技有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/14;G10L15/16;G10L15/18;G10L19/04 |
代理公司: | 北京汇鑫君达知识产权代理有限公司 11769 | 代理人: | 刘湘菲 |
地址: | 510000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 服务器 | ||
本申请涉及一种语音识别方法及服务器。该方法包括:获取待识别语音信号;根据各语种的声学模型对每帧待识别语音信号进行识别,分别输出对应的语种音素及预测概率;其中,各语种的声学模型分别根据共享隐层训练构建;依序遍历相互连接的句式解码图和多语种的槽位解码图,获得对应的路径;其中,句式解码图用于对进入非槽位的音素进行解码,槽位解码图用于对进入槽位的音素进行解码;当确定路径经过语音解码图中的多语种的槽位解码图时,根据各语种对应的语种音素的预测概率和路径进行筛选,确定目标路径对应的文字信息作为语音识别结果。本申请提供的方案,能够准确识别多语种混合的语音信息。
技术领域
本申请涉及语音识别技术领域,尤其涉及一种语音识别方法及服务器。
背景技术
随着车辆的智能化发展,车载智能设备具有语音识别功能,使得用户可以通过语音直接与车机进行交互,有助于用户安全驾驶。针对不同用户使用不同语种,需要车载智能设备中搭载的语音识别系统可以正确区分不同的语种并进行语音的准确识别。
相关技术中,一般针对不同语种的语音信号,需要先根据语种分类模型进行语种分类,明确语种类别,然后再采用对应该语种类别的语音识别系统进行文字识别。目前的语音识别技术最终仍然是针对一种语种的语音进行语音识别,无法对多个语种同步进行语种识别,影响识别效率。
发明内容
为解决或部分解决相关技术中存在的问题,本申请提供一种语音识别方法及服务器,能够同步准确识别多语种混合的语音信息。
本申请第一方面提供一种语音识别方法,其包括:获取待识别语音信号;根据各语种的声学模型对每帧所述待识别语音信号进行识别,分别输出对应的语种音素及预测概率;其中,各所述语种的声学模型分别根据共享隐层训练构建;依序遍历相互连接的句式解码图和多语种的槽位解码图,获得对应的路径;其中,所述句式解码图用于对进入非槽位的音素进行解码,槽位解码图用于对进入槽位的音素进行解码;当确定所述路径经过所述语音解码图中的多语种的槽位解码图时,根据各语种对应的所述语种音素的预测概率和所述路径进行筛选,确定目标路径对应的文字信息作为语音识别结果。这样的设计,一方面,采用共享隐层的声学模型可以精简语音识别系统的模型架构,且可以不限语种进行扩展声学模型,满足用户的多语种识别需求;另一方面,通过在不同的解码图区分槽位与非槽位并进行解码,提高识别效率和准确率。
在语音识别方法中,所述各所述语种的声学模型分别根据共同的隐层训练构建,包括:根据各语种的种类,分别获取样本语音信号及对应的音素标签作为训练数据;根据各语种对应的训练数据共同训练各声学模型,其中,不同声学模型具有共享隐层和各自独立的softmax层;根据各softmax层的输出概率分别确定对应的声学模型的损失函数,并通过反向传播对共享隐层的参数进行迭代,获得对应训练好的声学模型。通过采用共享隐层和各自独立的softmax层进行训练获得的各声学模型,具有更精简的模型架构,同时可以准确识别不同语种的音素;同时,新增的语种可以基于历史训练好的共享隐层进行训练,不会影响历史语种的声音模型的识别效果,易扩展。
在语音识别方法中,所述相互连接的句式解码图和多语种的槽位解码图根据下述方式构建:构建预设语种的句式解码图,及根据各预设的槽位类型,分别构建各语种对应的单语种槽位解码图;分别将同一所述槽位类型的所述单语种槽位解码图进行合并,形成对应的多语种的槽位解码图;将所述句式解码图分别与所述语种的槽位解码图进行连接。本方式构建的句式解码图和多语种的槽位解码图,可以在对预设语种和多语种分别进行解码的同时,具有更精简的网络结构。
在语音识别方法中,所述分别将同一所述槽位类型的所述单语种槽位解码图进行合并,形成对应的多语种的槽位解码图,包括:针对同一所述槽位类型,分别对各所述单语种槽位解码图设置节点及连接于节点之间的连接边,其中,各单语种槽位解码图中的起始节点具有相同的编号,剩余所述节点具有相异的编号;合并各所述单语种槽位解码图中的起始节点,将各所述单语种槽位解码图合并为所述槽位类型对应的槽位解码图。通过设置相同的起始节点,使各单语种槽位解码图可以快速合并为槽位解码图,提升构建效率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州小鹏汽车科技有限公司,未经广州小鹏汽车科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210740207.7/2.html,转载请声明来源钻瓜专利网。