[发明专利]一种基于智能人机交互的操作控制系统在审
申请号: | 202010887099.7 | 申请日: | 2020-08-28 |
公开(公告)号: | CN112017658A | 公开(公告)日: | 2020-12-01 |
发明(设计)人: | 侯祖贵;杨舸;卢秋实;赵鑫 | 申请(专利权)人: | 北京计算机技术及应用研究所 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/26;G10L15/12;G10L15/02;G10L17/06;G10L17/02;G10L21/0216;G10L25/24 |
代理公司: | 中国兵器工业集团公司专利中心 11011 | 代理人: | 王雪芬 |
地址: | 100854*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 智能 人机交互 操作 控制系统 | ||
1.一种基于智能人机交互的操作控制系统,其特征在于,包括:语音信息拾取模块、语音信息预处理模块、语音信息特征提取模块、身份认证模块、语音识别控制模块;
所述语音信息拾取模块用于采用麦克风阵列采集用户的语音信号;
所述语音信息预处理模块,用于对语音信息拾取模块输出的语音信号依次进行预加重处理、分帧加窗处理;
所述语音信息特征提取模块,用于对语音信息预处理后的信号提取语音信息的梅尔倒谱系数MFCC特征;
所述身份认证模块,用于将语音信息特征提取模块提取出语音信息的特征与已建立的用户语音特征库进行比对,通过计算特征值之间的最小距离,得到用户的身份信息,判断用户是否为合法用户及拥有的权限;
所述语音识别控制模块,用于采用DTW技术计算出采集的语音与短语库中短语的最小距离,即将输入的语音转换为文本,根据文本信息进行相应的操作控制。
2.如权利要求1所述的系统,其特征在于,所述语音信息拾取模块具体用于通过声波抵达麦克风阵列中每个麦克风之间的微小时差的相互作用,使用阵列算法处理后的指向性波束形成技术来形成一个锥状窄波束,只接收说话人的声音,同时抑制环境中的噪声与干扰。
3.如权利要求1所述的系统,其特征在于,所述语音信息预处理模块在预加重处理时具体是将语音信号S(n)中高频部分的频谱进行提升处理,以抑制语音信号的低频干扰。
4.如权利要求3所述的系统,其特征在于,所述语音信息预处理模块在预加重处理的实现方式具体是利用一阶的FIR高通滤波器对语音信号进行预加重,FIR高通滤波器的传递函数为H(z)=1-αz-1,其中α表示FIR高通滤波器的预加重系数,0.9α1.0。
5.如权利要求4所述的系统,其特征在于,所述语音信息预处理模块在分帧加窗处理时,其中的分帧是指以20毫秒为帧,1/2的时间作为帧移位帧,其中的帧移位是指相邻两帧之间的重叠区域。
6.如权利要求5所述的系统,其特征在于,所述语音信息预处理模块在分帧加窗处理时,分帧加窗处理中的加窗是在分帧之后,通过一个有限长度的窗口在语音信号上进行滑动加权,使成帧后的信号变得连续,具体的计算方式是用窗函数Hm(k)与语音信号相乘。
7.如权利要求6所述的系统,其特征在于,所述语音信息特征提取模块具体用于按照如下方法对语音信息预处理后的信号提取语音信息的梅尔倒谱系数MFCC特征:
步骤1)设对语音信号S(n)进行语音信息预处理后,得到一系列按帧计数的短时语音帧信号x(n),对提取出的短时语音帧信号x(n)进行快速傅里叶变换FFT,从而计算出短时语音帧信号x(n)的线性频谱Xα(k):
N表示x(n)的个数;
步骤2)计算步骤1)中Xα(k)模的平方,得到信号能量谱;
步骤3)定义一个含有M个三角滤波器的滤波器组,三角滤波器的中心频率为f(m),m=1,2,…,M,M=24,各f(m)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽;
步骤4)将所述信号能量谱输入所述滤波器组,得到各三角滤波器的输出:
步骤5)计算每个三角滤波器输出的对数能量,然后经过离散余弦变换DCT得MFCC参数:
其中,L表示MFCC系数的阶数,取为16,即提取16阶MFCC系数作为语音信息的特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京计算机技术及应用研究所,未经北京计算机技术及应用研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010887099.7/1.html,转载请声明来源钻瓜专利网。