[发明专利]基于相似对对比学习用户自定义关键词识别方法及系统在审

申请号：	202210984605.3	申请日：	2022-08-17
公开（公告）号：	CN115410552A	公开（公告）日：	2022-11-29
发明（设计）人：	雷蕾;袁国顺	申请（专利权）人：	苏州漠陀半导体科技有限公司
主分类号：	G10L15/02	分类号：	G10L15/02;G10L15/06;G10L15/16;G10L15/26;G10L21/0232
代理公司：	北京冠和权律师事务所 11399	代理人：	郑延斌
地址：	215300 江苏省苏州市昆山开发区庆丰西路***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于相似对比学习用户自定义关键词识别方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于相似对对比学习用户自定义关键词识别方法及系统，其方法包括：将待测语音输入端点检测以提取出其语音帧，基于所述语音帧，分别提取出待测语音的声学特征和信噪比，根据待测语音的声学特征和信噪比选择适配的嵌入模型进行处理，获得待测语音的待测向量，将所述待测向量和模板向量进行相似度对比，根据对比结果确定待测语音是否为唤醒词。通过根据待测语音的声学特征和信噪比选择适配的嵌入模型进行处理可以根据待测语音的信噪比提供不同的神经网络模型来实现对于待测语音中噪音的鲁棒性，从而最大化地克服噪音信号的影响，保证了后续进行语音关键词识别的识别精度。

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于相似对对比学习用户自定义关键词识别方法及系统。

背景技术

目前，在线的语音识别需要通过互联网实时与云端传输数据，这就会有功耗较大，延时大以及用户信息泄露的风险。关键词识别也称为语音唤醒，是语音交互的桥梁。只有在识别到关键词时，才会开启云端的语音交互功能，现有的语音唤醒技术通过提取语音中的关键词来与预设的唤醒词进行对比以确定其是否为唤醒词，其存在以下问题：由于噪音以及背景环境的场景影响导致误识别率较高从而发生误唤醒，降低了使用人员的体验感。

发明内容

针对上述所显示出来的问题，本发明提供了一种基于相似对对比学习用户自定义关键词识别方法及系统用以解决背景技术中提到的由于噪音以及背景环境的场景影响导致误识别率较高从而发生误唤醒，降低了使用人员的体验感的问题。

一种基于相似对对比学习用户自定义关键词识别方法，包括以下步骤：

将待测语音输入端点检测以提取出其语音帧；

基于所述语音帧，分别提取出待测语音的声学特征和信噪比；

根据待测语音的声学特征和信噪比选择适配的嵌入模型进行处理，获得待测语音的待测向量；

将所述待测向量和模板向量进行相似度对比，根据对比结果确定待测语音是否为唤醒词。

优选的，所述将待测语音输入端点检测以提取出其语音帧，包括：

判断所述待测语音的起始发音位置和终止发音位置；

根据所述起始发音位置和终止发音位置提取出待测语音的发音段；

对所述发音段进行分帧处理，获取所述发音段对应的多帧语音；

提取每帧语音的第一信号幅度和第一能量值，根据每帧语音的第一信号幅度和第一能量值与标准语音帧的第二信号幅度和第二能量值的比较情况确定该帧语音是否为语音帧。