[发明专利]用于智能客服的语音处理方法、装置和计算机设备在审
申请号: | 202111148412.6 | 申请日: | 2021-09-29 |
公开(公告)号: | CN113936657A | 公开(公告)日: | 2022-01-14 |
发明(设计)人: | 彭新俊;赵杰;潘仰耀;汪贇 | 申请(专利权)人: | 上海浦东发展银行股份有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/26;G10L15/30;G10L15/02;G10L19/18;G10L25/18;G10L25/24;G10L25/30;H04M3/527 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 谢曲曲 |
地址: | 200001*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 智能 客服 语音 处理 方法 装置 计算机 设备 | ||
本申请涉及一种用于智能客服的语音处理方法、装置、计算机设备和存储介质。该方法包括:获取语音序列对应的编码后的声学特征序列;将编码后的声学特征序列输入至解码器中的自注意力网络,得到目标自注意力特征;将编码后的声学特征序列输入至解码器中的混合注意力网络,得到目标混合注意力特征;采用解码器根据所述目标自注意力特征和目标混合注意力特征,确定语音序列对应的文本序列。采用本方法能够提高客服过程中语音识别的准确性。
技术领域
本申请涉及音频数据处理技术领域,特别是涉及一种用于智能客服的语音处理方法、装置、计算机设备和存储介质。
背景技术
智能客服中的语音导航是综合利用自动语音识别(Automatic SpeechRecognition,ASR)、文字转语音(Text To Speech,TTS)和自然语言理解(NaturalLanguage Understanding,NLU)技术,并面向用户提供的一款电话机器人产品。语音导航在传统的热线电话中加入了语音业务自助办理/语音问答功能,可有效的处理常规业务场景,大幅减少人工热线电话客服压力。
传统的语音导航中,会采用GMM-HMM作为语音识别模型,该GMM-HMM模型通常包括声学模型、发音词典和语言模型。每一部分都需要单独的学习训练。
但是,采用传统的GMM-HMM模型,无法很好地建模不同语言之间声学属性的联系,导致语音识别的准确性较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高客服过程中语音识别的准确性的用于智能客服的语音处理方法、装置、计算机设备和存储介质。
一种用于智能客服的语音处理方法,所述方法包括:
获取语音序列对应的编码后的声学特征序列;
将所述编码后的声学特征序列输入至解码器中的自注意力网络,得到目标自注意力特征;
将所述编码后的声学特征序列输入至所述解码器中的混合注意力网络,得到目标混合注意力特征;
采用所述解码器根据所述目标自注意力特征和所述目标混合注意力特征,确定所述语音序列对应的文本序列。
在其中一个实施例中,所述解码器的数量为多个,所述多个解码器串行连接;
所述将所述编码后的声学特征序列输入至解码器中的自注意力网络,得到目标自注意力特征,包括:
将所述编码后的声学特征序列输入至第一个解码器中的自注意力网络,得到第一个自注意力特征;
将所述第一个自注意力特征输入至下一个解码器中的自注意力网络,以此类推,直至最后一个解码器中的自注意力网络输出最后一个自注意力特征;
将所述最后一个自注意力特征确定为目标自注意力特征;
所述将所述编码后的声学特征序列输入至所述解码器中的混合注意力网络,得到目标混合注意力特征,包括:
将所述编码后的声学特征序列输入至所述第一个解码器中的混合注意力网络,得到第一个混合注意力特征;
将所述第一个混合注意力特征和所述第一个自注意力特征输入至所述下一个解码器中的混合注意力网络,以此类推,直至所述最后一个解码器中的混合注意力网络输出最后一个混合注意力特征;
将所述最后一个混合注意力特征确定为目标混合注意力特征。
在其中一个实施例中,所述采用所述解码器根据所述目标自注意力特征和所述目标混合注意力特征,确定所述语音序列对应的文本序列,包括:
采用所述解码器对所述目标自注意力特征和所述目标混合注意力特征进行拼接,得到拼接后的特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海浦东发展银行股份有限公司,未经上海浦东发展银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111148412.6/2.html,转载请声明来源钻瓜专利网。