[发明专利]多语言混合语音识别方法及其应用在审
| 申请号: | 202210264804.7 | 申请日: | 2022-03-17 |
| 公开(公告)号: | CN114627853A | 公开(公告)日: | 2022-06-14 |
| 发明(设计)人: | 加鹏飞 | 申请(专利权)人: | 邢台职业技术学院 |
| 主分类号: | G10L15/00 | 分类号: | G10L15/00;G10L15/01;G10L15/06;G10L15/26;G10L21/0316;G06F40/253;G06F40/30 |
| 代理公司: | 厦门原创专利事务所(普通合伙) 35101 | 代理人: | 高巍 |
| 地址: | 054000 河北*** | 国省代码: | 河北;13 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语言 混合 语音 识别 方法 及其 应用 | ||
本发明涉及语音识别领域,具体为一种多语言混合语音识别方法,包括:S1:获取用户声音信息,并生成语音信息;S2:将语音信息输入到混合语音模型中,通过混合语音模型将语音信息识别成若干个字词序列;S3:将若干个字词序列分别输入到对应的语言识别模型中得到各语言识别模型得分,将得分最高的识别结果进行输出;本发明提供的多语言混合语音识别方法结合不同语言环境下的语法、语义对用户的语音信息进行识别,大大提升了语音识别结果的准确性。此外,本发明通过背景音调整消除方式,有效避免了语音识别过程中环境音对识别结果造成的影响,使识别结果更加准确,适宜进一步推广应用。
技术领域
本发明涉及语音识别技术领域,具体是多语言混合语音识别方法及其应用。
背景技术
随着数据化教学的日益普及,大多教学场地内相应配置了投影屏等多媒体辅助设备用于教学展示。为了便于文字的输入,教学多媒体设备上也逐渐采用语音识别方式进行输入,语音识别输入相较传统手写、打字输入方式使用更加轻松、便捷。
随着世界多元化的进程,学习不同语种的学生也逐渐增多。现有的语言识别模型大多只能识别一至两个语种,随着语种数量的增大,若单从发音上进行语音的识别,其出错的概率就会大幅度提升,因为同一发音在不同语言环境下,可能对应找不同的字词,因此在多语言的条件下,单从字词发音入手进行识别其识别的出错率较高。
发明内容
为解决上述问题,本发明提供一种多语言混合语音识别方法及其应用。
为了实现上述的技术目的,本发明所采用的技术方案为:
一种多语言混合语音识别方法,包括:
S1:获取用户声音信息,并生成语音信息;
S2:将语音信息输入到混合语音模型中,通过混合语音模型将语音信息识别成若干个字词序列;
S3:将若干个字词序列分别输入到对应的语言识别模型中得到各语言识别模型得分,将得分最高的识别结果进行输出。
进一步的,S1具体包括如下步骤:
S1.1:分别获取背景环境端声音及用户语音端声音;
S1.2:分别提取背景环境端声音及用户语音端声音的音频波形;
S1.3:根据提取的用户语音端音频调整背景环境端音频;
S1.4:以获取的时间为基准,将用户语音端音频与调整后的背景端环境音频进行相减,生成最终语音信息。
进一步的,S1.1中的步骤具体为:
以时间为基准,通过两声音获取模块分别获取用户语音端声音与背景环境端声音,当用户声音停止后,两声音获取模块继续录制预设时长的声音。
进一步的,S1.3中的步骤具体为:
分别截取用户语音端及背景环境端,在用户声音停止后继续录制的声音音频波形;
根据用户语音端录制的声音音频波形振幅调整背景环境端录制的声音音频波形的振幅,使两段声音音频波形振幅相重合,并算出背景环境端录制音频波形振幅的调整倍数;
将背景环境端音频振幅乘以算出的调整倍数得到调整后的背景端环境音频。
进一步的,所述混合语音模型是由多种不同语言的词典以及多种不同语言的语音数据训练形成。
进一步的,S3具体为:
将若干个字词序列分别输入到对应的语言识别模型中,语言识别模型将各字词序列识别成一个完整的语句,并通过该语句所属语言下的语法、语义标准对其进行评分,将得分最高的语句作为识别结果进行输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于邢台职业技术学院,未经邢台职业技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210264804.7/2.html,转载请声明来源钻瓜专利网。





