[发明专利]基于相似对对比学习用户自定义关键词识别方法及系统在审
申请号: | 202210984605.3 | 申请日: | 2022-08-17 |
公开(公告)号: | CN115410552A | 公开(公告)日: | 2022-11-29 |
发明(设计)人: | 雷蕾;袁国顺 | 申请(专利权)人: | 苏州漠陀半导体科技有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/16;G10L15/26;G10L21/0232 |
代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 郑延斌 |
地址: | 215300 江苏省苏州市昆山开发区庆丰西路*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 相似 对比 学习 用户 自定义 关键词 识别 方法 系统 | ||
本发明公开了一种基于相似对对比学习用户自定义关键词识别方法及系统,其方法包括:将待测语音输入端点检测以提取出其语音帧,基于所述语音帧,分别提取出待测语音的声学特征和信噪比,根据待测语音的声学特征和信噪比选择适配的嵌入模型进行处理,获得待测语音的待测向量,将所述待测向量和模板向量进行相似度对比,根据对比结果确定待测语音是否为唤醒词。通过根据待测语音的声学特征和信噪比选择适配的嵌入模型进行处理可以根据待测语音的信噪比提供不同的神经网络模型来实现对于待测语音中噪音的鲁棒性,从而最大化地克服噪音信号的影响,保证了后续进行语音关键词识别的识别精度。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于相似对对比学习用户自定义关键词识别方法及系统。
背景技术
目前,在线的语音识别需要通过互联网实时与云端传输数据,这就会有功耗较大,延时大以及用户信息泄露的风险。关键词识别也称为语音唤醒,是语音交互的桥梁。只有在识别到关键词时,才会开启云端的语音交互功能,现有的语音唤醒技术通过提取语音中的关键词来与预设的唤醒词进行对比以确定其是否为唤醒词,其存在以下问题:由于噪音以及背景环境的场景影响导致误识别率较高从而发生误唤醒,降低了使用人员的体验感。
发明内容
针对上述所显示出来的问题,本发明提供了一种基于相似对对比学习用户自定义关键词识别方法及系统用以解决背景技术中提到的由于噪音以及背景环境的场景影响导致误识别率较高从而发生误唤醒,降低了使用人员的体验感的问题。
一种基于相似对对比学习用户自定义关键词识别方法,包括以下步骤:
将待测语音输入端点检测以提取出其语音帧;
基于所述语音帧,分别提取出待测语音的声学特征和信噪比;
根据待测语音的声学特征和信噪比选择适配的嵌入模型进行处理,获得待测语音的待测向量;
将所述待测向量和模板向量进行相似度对比,根据对比结果确定待测语音是否为唤醒词。
优选的,所述将待测语音输入端点检测以提取出其语音帧,包括:
判断所述待测语音的起始发音位置和终止发音位置;
根据所述起始发音位置和终止发音位置提取出待测语音的发音段;
对所述发音段进行分帧处理,获取所述发音段对应的多帧语音;
提取每帧语音的第一信号幅度和第一能量值,根据每帧语音的第一信号幅度和第一能量值与标准语音帧的第二信号幅度和第二能量值的比较情况确定该帧语音是否为语音帧。
优选的,基于所述语音帧,提取出待测语音的信噪比,具体为:
根据所述语音帧确定待测语音的语音信号频率;
基于所述语音信号频率对所述待测语音进行扩频处理,获取扩频后的待测语音;
提取待测语音每个扩频后的语音帧对应的信号能量和噪声能量;
计算每个扩频后的语音帧对应的信号能量和噪声能量的比值,取所有语音帧的比值的平均值作为待测语音的信噪比。
优选的,提取待测语音的声学特征的方式为MFCC特征提取,其具体包括:对待测语音进行预加重、分帧、加窗、傅里叶变换、取平方、Mel滤波、取对数、离散傅里叶变换。
优选的,在根据待测语音的声学特征和信噪比选择适配的嵌入模型进行处理,获得待测语音的待测向量之前,所述方法还包括:
获取两个标签相同的训练语音信号;
将所述两个训练语音信号进行增强以获得模型训练样本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州漠陀半导体科技有限公司,未经苏州漠陀半导体科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210984605.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:全自动多极充磁装置
- 下一篇:一种高纯有机铝改性酸性硅溶胶及其制备方法和应用