[发明专利]语音取号的方法及终端设备有效
申请号: | 201810952906.1 | 申请日: | 2018-08-21 |
公开(公告)号: | CN109147146B | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 袁启凤 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G07C11/00 | 分类号: | G07C11/00;G10L15/08;G10L15/16;G10L15/26;G06N3/04 |
代理公司: | 深圳中一专利商标事务所 44237 | 代理人: | 冷仔 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 方法 终端设备 | ||
1.一种语音取号的方法,其特征在于,包括:
接收用户的语音信号;
将所述语音信号转换成预设格式的语音信号,并对转换成预设格式的语音信号进行分帧处理得到N帧子信号;其中,N为正整数;
提取每帧所述子信号的声学特征构成声学特征向量;
组合N帧所述子信号的所述声学特征向量构成观察矩阵DETECT;
通过语种识别模型分析预处理后的所述语音信号,得到所述语音信号的语种信息;
对所述语音信号进行识别,获得所述语音信号对应的多个词序列;每个所述词序列包括多个词;
根据所述语种信息对应的词库,删除多个所述词序列中包括在所述词库中出现频率为零的词的词序列,将剩下的所述词序列中出现概率最高的词序列确定为所述语音信号的识别结果;
提取所述识别结果中的关键字,确定用户办理的业务,并生成所述业务对应的排队票。
2.如权利要求1所述的方法,其特征在于,所述对所述语音信号进行识别,获得所述语音信号对应的多个词序列,包括:
分别将每帧所述子信号的所述声学特征向量输入声学模型得到每帧所述子信号对应的概率排名靠前的若干个音素;
将N帧所述子信号对应的音素按照帧的时间先后顺序进行排序,构建成多个词序列。
3.如权利要求1所述的方法,其特征在于,所述对转换成预设格式的语音信号进行分帧处理得到N帧子信号之后,还包括:
计算每帧所述子信号的短时能量和过零率,基于所述短时能量和所述过零率确定N帧所述子信号中的静音帧,切除所述静音帧,得到包括剩余帧的所述语音信号;
相应的,提取每帧所述子信号的声学特征构成声学特征向量;组合N帧所述子信号的所述声学特征向量构成观察矩阵DETECT,包括:
提取剩余帧中每帧所述子信号的声学特征构成声学特征向量;组合剩余帧中每帧所述子信号的所述声学特征向量构成观察矩阵DETECT。
4.如权利要求3所述的方法,其特征在于,所述基于所述短时能量和所述过零率确定N帧所述子信号中的静音帧,包括:
从N帧所述子信号的第一帧开始,若连续Q帧所述子信号的所述短时能量小于或等于预设短时能量下限,且所述过零率小于或等于预设过零率下限,以及第Q+1帧后的连续R帧所述子信号的所述短时能量大于所述预设短时能量下限,且所述过零率大于所述预设过零率下限,则确定N帧所述子信号的前Q帧所述子信号为静音帧;
从N帧所述子信号的最后一帧开始,若倒数连续S帧所述子信号的所述短时能量小于或等于预设短时能量下限,且所述过零率小于或等于预设过零率下限,以及从第N-S帧开始倒数连续T帧所述子信号的所述短时能量大于所述预设短时能量下限,且所述过零率大于所述预设过零率下限,则确定N帧所述子信号的后S帧所述子信号为静音帧。
5.如权利要求1所述的方法,其特征在于,所述提取每帧所述子信号的声学特征构成声学特征向量,包括:
提取每帧所述子信号的5个声学特征构成声学特征向量,其中,5个声学特征包括:美尔频率倒谱系数、线性预测倒谱系数、第一共振峰、基音频率和短时能量。
6.如权利要求1所述的方法,其特征在于,所述生成所述业务对应的排队票,包括:根据所述语种信息控制输出是否需要办理所述业务的询问语音;若接收到用户的肯定回答,则生成与所述业务对应的排队票。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810952906.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:发票粉碎装置及电费催缴终端
- 下一篇:一种智能化餐饮业服务系统及方法