[发明专利]语音处理方法及装置、计算机可存储介质有效
申请号: | 202110694885.X | 申请日: | 2021-06-23 |
公开(公告)号: | CN113257230B | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 李成飞;汪光璟 | 申请(专利权)人: | 北京世纪好未来教育科技有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/16;G10L15/26;G10L17/02;G10L17/04;G10L17/18;G10L25/24 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 王莉莉 |
地址: | 100190 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 处理 方法 装置 计算机 存储 介质 | ||
本公开涉及语音处理方法及装置、计算机可存储介质,涉及语音处理领域。语音处理方法包括:对当前说话人的语音进行特征提取,得到语音特征;根据所述语音特征,利用具有不同参数的第一编码器和第二编码器,分别确定当前文本内容特征和当前说话人身份特征;根据所述当前说话人身份特征,确定与所述语音对应的目标说话人身份特征;根据所述当前文本内容特征和所述目标说话人身份特征,利用同一解码器,确定与所述语音对应的文本内容信息和说话人身份信息。根据本公开,可以提高语音处理的准确性。
技术领域
本公开涉及语音处理领域,特别涉及语音处理方法及装置、计算机可存储介质。
背景技术
相关技术中,采用单编码器对语音的语音特征进行编码,得到文本内容特征和说话人身份特征,进而将文本内容特征和说话人身份特征分别输入到不同的两个解码器中,得到与语音对应的文本内容信息和说话人身份信息。
发明内容
相关技术中,单编码器执行多编码任务,编码器的训练难度较大,相对于单编码任务而言,需要更大量的训练数据,编码器的准确性较低,从而语音处理的准确性较低。并且,双解码器分别对文本内容特征和说话人身份特征进行解码,语音处理的准确性较低。
针对上述技术问题,本公开提出了一种解决方案,提高语音处理的准确性。
根据本公开的第一方面,提供了一种语音处理方法,其特征在于,包括:对当前说话人的语音进行特征提取,得到语音特征;根据所述语音特征,利用具有不同参数的第一编码器和第二编码器,分别确定当前文本内容特征和当前说话人身份特征;根据所述当前说话人身份特征,确定与所述语音对应的目标说话人身份特征;根据所述当前文本内容特征和所述目标说话人身份特征,利用同一解码器,确定与所述语音对应的文本内容信息和说话人身份信息。
在一些实施例中,所述语音包括多帧语音,所述当前说话人身份特征包括与所述多帧语音对应的多帧当前说话人身份特征,确定与所述语音对应的目标说话人身份特征包括:计算所述多帧当前说话人身份特征的平均值;获取多个参考说话人的参考说话人身份特征;根据所述平均值与每个参考说话人的参考说话人身份特征之间的相似度,从所述多个参考说话人的说话人身份特征中,筛选出所述目标说话人身份特征。
在一些实施例中,确定与所述语音对应的当前文本内容信息和说话人身份信息包括:根据所述平均值与每个参考说话人的参考说话人身份特征之间的相似度,确定所述目标说话人身份特征的权重值;根据所述权重值,对所述目标说话人身份特征进行调整;根据所述当前文本内容特征和调整后的目标说话人身份特征,利用同一解码器,确定与所述语音对应的文本内容信息和说话人身份信息。
在一些实施例中,从所述多个参考说话人的参考说话人身份特征中,筛选出所述目标说话人身份特征包括:从所述多个参考说话人的参考说话人身份特征中,选择与所述平均值的相似度最大的参考说话人身份特征,作为所述目标说话人身份特征。
在一些实施例中,语音处理方法,还包括:利用带有说话人身份标注信息的所述多个参考说话人的参考语音,训练深度神经网络模型,得到所述多个参考说话人的参考说话人身份特征。
在一些实施例中,语音处理方法,还包括:利用第一训练数据训练所述第一编码器,所述第一训练数据包括多条第一训练语音和与每条第一训练语音对应的文本内容标注信息;利用第二训练数据训练所述第二编码器,所述第二训练数据包括多条第二训练语音和与每条第二训练语音对应的说话人身份标注信息。
在一些实施例中,所述第一编码器包括Transformer模型的编码层,所述第二编码器包括基于卷积增强的Transformer模型的编码层。
在一些实施例中,所述语音特征为梅尔频率倒谱系数MFCC或者滤波器组Fbank。
在一些实施例中,所述说话人身份信息包括学生和负责不同学科的老师。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京世纪好未来教育科技有限公司,未经北京世纪好未来教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110694885.X/2.html,转载请声明来源钻瓜专利网。