[发明专利]多语种智能语音对话的方法及系统有效
申请号: | 201911392129.0 | 申请日: | 2019-12-30 |
公开(公告)号: | CN111128126B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 张朋;魏云波;周琦 | 申请(专利权)人: | 海智讯通(上海)智能科技有限公司 |
主分类号: | G10L15/00 | 分类号: | G10L15/00;G10L13/04;G10L15/02;G10L15/04;G10L15/06;G10L15/183;G10L15/26;G10L15/30;G10L25/72;G10L25/78;H04L67/02 |
代理公司: | 上海坤元知识产权代理有限公司 31376 | 代理人: | 董强 |
地址: | 200000 上海市浦东新区中国(上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语种 智能 语音 对话 方法 系统 | ||
1.一种多语种智能语音对话的方法,其特征在于,包括以下步骤:
步骤1,建立互联网端与手机端进行通信联系的通道
通过外呼装置实现在互联网端基于websocket协议以及webrtc协议的基础上将互联网端和客户手机端通话信道打通;
步骤2,通过通讯服务器实现语音媒体信息流的传输
通道建立后,通过通讯服务器完成通道内通话双方媒体声音传输;使用电话软交换平台捕获经由通道传输的媒体声音流,并开三通将媒体声音导出;
步骤3,语音识别
步骤3.1,预处理:通过包括预加重方式、分帧方式和加窗方式进行声音预处理;
步骤3.2,语种识别:将分帧加窗后的信号转换为语谱图,使用深度卷积神经网络针对语谱图数据进行特征提取,识别出相应语种;若识别出的语种非当前交互语种,则当前交互语种切换为识别出的语种类型;
步骤3.3,提取声学特征:对分帧加窗后的各帧信号进行快速傅里叶FFT变换得到相应的频谱信号,并对语音信号的频谱幅度谱取模平方得到语音信号的能量谱,能量谱通过一组梅尔滤波器组,计算每个滤波器的对数输出能量,带入离散余弦变换得到MFCC系数,提取动态差分参数,得到N维MFCC参数;
步骤3.4,根据语种提取对应语音的声学特征:根据不同语种特点,使用步骤3.1和步骤3.2所述提取声学特征步骤,提取其他声学特征,并根据不同语种实际使用情况选用声学特征或对声学特征进行混合处理;
步骤3.5,静音检测:通过预训练的基于深度神经网络DNN和长短时记忆单元LSTM的混合网络结构进行静音检测;
步骤3.6,断句:根据静音检测结果及该语种对应预设阈值将语音流进行断句处理;
步骤3.7,语音转文字:通过声学模型和语言模型将语音转为对应语种文本信息输出;
步骤4,语义分析
步骤4.1,意图分析:通过步骤3.5中获得的文本信息提取出对应意图序列;
步骤4.2,BERT模型:步骤3.5所述获得的对应句子级别的文本信息,输入基于BERT预训练模型用特定语种及场景的语料进行再训练后的模型,获得意图序列;
步骤4.3,自定义词库模型:结合包括场景流程导向模块、知识库模块和话术训练模块,将步骤3.5所述获得的对应文本信息及目前会话流程节点信息输入到已训练的场景词库模型中,先提取到文本信息关键词,再输出文本信息对应的意图序列;
步骤5,话术生成
步骤5.1,单套话术制作:根据场景会话要求,利用包括可视化流程图编辑方式、可视化编辑方式和导入方式,为各场景设置基于该场景的对话交互流程,描述每个流程节点之间的关系,定义各种可能的意图需要导向的下一个节点,从而串联整个对话交互场景;每个节点及意图配备一条或多条交互话术;此外还设置一套知识库作为场景交互话术补充;
步骤5.2,话术组制作:为每种使用到的语种单独制作一套完整的交互话术,组成一套多语种话术组,在通话中用不同语种进行交互,满足通话中根据客户对话在不同语种间无缝灵活切换;
步骤5.3,话术生成:在交互过程中实时获得需要反馈的交互话术内容;
步骤6,文字转语音
步骤6.1,选中文字转语音存在人工录音模型、语音合成模型,及两者结合多种实现方式;
步骤6.2,根据场景及预期使用的多个语种准备各语种的交互语音,采用人工录制并训练对应声音模型用于后续关键参数合成,设置需要的语音特点合成交互语音;
步骤6.3,交互语音及模型准备好后,经过播放语音进行试听和电话试打后选用适合的效果理想的交互语音及模型;
步骤6.4,若步骤3.2中所述当前语种对应的交互语音及模型已准备好,则直接调用交互语音及模型;
步骤6.5,若步骤3.2中所述当前交互语种对应的交互语音及模型未准备好,需翻译成当前交互语种对应的文字,再调用外接语音合成应用将翻译后的交互话术文本合成对应语音;
步骤7,语音播放
调用电话软交互的放音接口播放如步骤6中所述获得的交互话术语音。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于海智讯通(上海)智能科技有限公司,未经海智讯通(上海)智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911392129.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:恶意软件检测系统攻击防止
- 下一篇:一分多线束夹持装置