[发明专利]一种基于信道特征的场景识别方法及装置在审
申请号: | 202011275286.6 | 申请日: | 2020-11-13 |
公开(公告)号: | CN112489678A | 公开(公告)日: | 2021-03-12 |
发明(设计)人: | 荆伟;白二伟;包飞;倪合强;姚寿柏;黄华 | 申请(专利权)人: | 苏宁云计算有限公司 |
主分类号: | G10L25/51 | 分类号: | G10L25/51;G10L25/03 |
代理公司: | 北京市万慧达律师事务所 11111 | 代理人: | 陈怡 |
地址: | 210000 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 信道 特征 场景 识别 方法 装置 | ||
本发明公开了一种基于信道特征的场景识别方法、装置、计算机设备及存储介质,该方法包括:通过获取待识别音频,对待识别音频进行分帧处理,获取音频帧,提取每一音频帧的音频特征以及信道特征,分别构建每一音频帧的音频特征向量以及信道特征向量,将每一音频帧输入预先训练的识别模型,获取每一音频帧对应的超矢量,根据超矢量、音频特征向量以及信道特征向量使用预设方法进行迭代计算,获取待识别音频对应的信道空间矩阵,根据信道空间矩阵以及待匹配音频的信道空间矩阵分别计算待识别音频与待匹配音频的相似度,确定相似度符合预设条件的待匹配音频对应的场景为待识别音频的场景,有效避免说话人信息在场景识别过程中的干扰。
技术领域
本发明涉及语音处理技术领域,特别涉及一种基于信道特征的场景识别方法、装置、计算机设备及存储介质。
背景技术
声音场景分类是对不同场景环境的声音特征进行处理,从而做出场景判断的技术。
当今现在,互联网以及计算机技术每天都在发生着翻天覆地的变化,智能终端作为人与互联网或计算机交互的入口,语音识别无疑是人机交互最为便捷的方式。而智能终端可能处在各式各样的场景中,环境中的噪声会对人声产生极大的干扰。提前将音频中的环境信息分类,而有针对性的进行前端信号处理,可以极大的提高后期识别的准确率。
在现有的场景分类方法中,通常先采集不同场景下的声音作为训练语料,训练场景分类模型,在识别阶段,将未知场景的声音输入模型,即可得到此声音的分类。但是此方法在测试阶段,如遇到混有人声的声音,就会影响识别的精度。
因此,亟需提出一种新的场景识别方法。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种基于信道特征的场景识别方法、装置、计算机设备以及存储介质,以克服现有技术中存在的待识别音频中混有人声会影响声音场景的分类等问题。
为解决上述一个或多个技术问题,本发明采用的技术方案是:
第一方面,提供了一种基于信道特征的场景识别方法,该方法包括如下步骤:
获取待识别音频,对所述待识别音频进行分帧处理,获取音频帧;
提取每一所述音频帧的音频特征以及信道特征,并根据所述音频特征以及所述信道特征分别构建每一所述音频帧的音频特征向量以及信道特征向量;
将每一所述音频帧输入预先训练的识别模型,获取每一所述音频帧对应的超矢量;
根据所述超矢量、所述音频特征向量以及所述信道特征向量使用预设方法进行迭代计算,获取所述待识别音频对应的信道空间矩阵;
根据所述信道空间矩阵以及待匹配音频的信道空间矩阵分别计算所述待识别音频与所述待匹配音频的相似度;
确定相似度符合预设条件的所述待匹配音频对应的场景为所述待识别音频的场景。
在一些实施例中,所述根据所述信道空间矩阵以及待匹配音频的信道空间矩阵分别计算所述待识别音频与所述待匹配音频的相似度包括:
分别计算所述信道空间矩阵与待匹配音频的信道空间矩阵之间的欧式距离;
所述确定相似度符合预设条件的所述待匹配音频对应的场景为所述待识别音频的场景包括:
确定与所述信道空间矩阵的欧氏距离最小的信道空间矩阵对应的待匹配音频的场景为所述待识别音频的场景。
在一些实施例中,所述方法还包括识别模型的训练过程,包括:
利用预先准备的训练数据对预设的识别模型进行训练,获取经训练的识别模型。
在一些实施例中,所述方法还包括所述待匹配音频的信道空间矩阵的获取方法,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏宁云计算有限公司,未经苏宁云计算有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011275286.6/2.html,转载请声明来源钻瓜专利网。