[发明专利]语音处理方法及装置、计算机可存储介质有效
申请号: | 202110694885.X | 申请日: | 2021-06-23 |
公开(公告)号: | CN113257230B | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 李成飞;汪光璟 | 申请(专利权)人: | 北京世纪好未来教育科技有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/16;G10L15/26;G10L17/02;G10L17/04;G10L17/18;G10L25/24 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 王莉莉 |
地址: | 100190 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 处理 方法 装置 计算机 存储 介质 | ||
1.一种语音处理方法,其特征在于,包括:
对当前说话人的语音进行特征提取,得到语音特征,所述语音包括多帧语音;
根据所述语音特征,利用具有不同参数的第一编码器和第二编码器,分别确定与所述当前说话人对应的当前文本内容特征和当前说话人身份特征,所述当前说话人身份特征包括与所述多帧语音对应的多帧当前说话人身份特征;
计算所述多帧当前说话人身份特征的平均值;
获取多个参考说话人的参考说话人身份特征;
根据所述平均值与每个参考说话人的参考说话人身份特征之间的相似度,从所述多个参考说话人的参考说话人身份特征中,筛选出目标说话人身份特征;
根据所述平均值与每个参考说话人的参考说话人身份特征之间的相似度,确定所述目标说话人身份特征的权重值;
根据所述权重值,对所述目标说话人身份特征进行调整;
根据所述当前文本内容特征和调整后的目标说话人身份特征,利用同一解码器,确定与所述语音对应的文本内容信息和说话人身份信息。
2.根据权利要求1所述的语音处理方法,其特征在于,从所述多个参考说话人的参考说话人身份特征中,筛选出目标说话人身份特征包括:
从所述多个参考说话人的参考说话人身份特征中,选择与所述平均值的相似度最大的参考说话人身份特征,作为所述目标说话人身份特征。
3.根据权利要求1所述的语音处理方法,其特征在于,还包括:
利用带有说话人身份标注信息的所述多个参考说话人的参考语音,训练深度神经网络模型,得到所述多个参考说话人的参考说话人身份特征。
4.根据权利要求1所述的语音处理方法,其特征在于,还包括:
利用第一训练数据训练所述第一编码器,所述第一训练数据包括多条第一训练语音和与每条第一训练语音对应的文本内容标注信息;
利用第二训练数据训练所述第二编码器,所述第二训练数据包括多条第二训练语音和与每条第二训练语音对应的说话人身份标注信息。
5.根据权利要求1所述的语音处理方法,其特征在于,所述第一编码器包括Transformer模型的编码层,所述第二编码器包括基于卷积增强的Transformer模型的编码层。
6.根据权利要求1所述的语音处理方法,其特征在于,所述语音特征为梅尔频率倒谱系数MFCC或者滤波器组Fbank。
7.根据权利要求1所述的语音处理方法,其特征在于,所述说话人身份信息包括学生和负责不同学科的老师。
8.一种语音处理装置,其特征在于,包括:
处理器,被配置为对当前说话人的语音进行特征提取,得到语音特征,所述语音包括多帧语音;
第一编码器,被配置为根据所述语音特征,确定与所述当前说话人对应的当前文本内容特征;
第二编码器,被配置为根据所述语音特征,确定与所述当前说话人对应的当前说话人身份特征,所述第二编码器与所述第一编码器具有不同参数,所述当前说话人身份特征包括与所述多帧语音对应的多帧当前说话人身份特征;
所述处理器,还被配置为计算所述多帧当前说话人身份特征的平均值;获取多个参考说话人的参考说话人身份特征;根据所述平均值与每个参考说话人的参考说话人身份特征之间的相似度,从所述多个参考说话人的参考说话人身份特征中,筛选出目标说话人身份特征;
解码器,被配置为根据所述平均值与每个参考说话人的参考说话人身份特征之间的相似度,确定所述目标说话人身份特征的权重值;根据所述权重值,对所述目标说话人身份特征进行调整;根据所述当前文本内容特征和调整后的目标说话人身份特征,利用同一解码器,确定与所述语音对应的文本内容信息和说话人身份信息。
9.一种语音处理装置,其特征在于,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器的指令,执行如权利要求1至7任一项所述的语音处理方法。
10.一种计算机可存储介质,其特征在于,其上存储有计算机程序指令,该指令被处理器执行时实现如权利要求1至7任一项所述的语音处理方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京世纪好未来教育科技有限公司,未经北京世纪好未来教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110694885.X/1.html,转载请声明来源钻瓜专利网。