[发明专利]基于人工智能的语音特征提取方法及装置有效
申请号: | 201611239071.2 | 申请日: | 2016-12-28 |
公开(公告)号: | CN106710589B | 公开(公告)日: | 2019-07-30 |
发明(设计)人: | 李超;李先刚 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L25/18 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出一种基于人工智能的语音特征提取方法及装置,其中,方法包括:对待识别语音进行频谱分析,得到待识别语音的语谱图,利用图像识别算法中的Inception卷积结构,对语谱图进行特征提取,得到待识别语音的语音特征。本发明中,通过对待识别语音进行频谱分析,将连续的待识别语音转换成语谱图进行表示,由于Inception卷积结构为可以精准识别图像特征的有效的图像识别方式,利用Inception卷积结构对语谱图进行识别,提取出待识别语音较为准确的语音特征,进而可以提高语音识别的准确率。 | ||
搜索关键词: | 语音 卷积 语音特征提取 人工智能 频谱分析 语音特征 图像识别算法 有效的图像 特征提取 图像特征 语音识别 语音转换 准确率 成语 | ||
【主权项】:
1.一种基于人工智能的语音特征提取方法,其特征在于,所述语音特征用于进行语音识别,包括:对待识别语音进行频谱分析,得到所述待识别语音的语谱图;利用图像识别算法中的Inception卷积结构,对所述语谱图进行特征提取,得到所述待识别语音的语音特征;其中,所述Inception卷积结构包括多个卷积模块,每个卷积模块包括一个分路层、多个卷积层、一个池化层和特征拼接层;所述池化层用于在时域和/或频域进行降采样;各池化层在时域上的总降采样率小于在频域上的总降采样率,其中,在形成所述语谱图时在时域已对所述待识别语音进行了一次降采样;其中,所述Inception卷积结构包括4个卷积模块,其中,所述第一个卷积模块和第二个卷积模块中均包括:一个分路层、4个卷积核为1*1的卷积层、1个卷积核为3*3的卷积层和1个卷积核为5*1的卷积层和1个卷积核为1*5的卷积层、所述池化层和所述特征拼接层,其中,所述1个卷积核为5*1的卷积层和1个卷积核为1*5的卷积层构成一个卷积核5*5的卷积层,所述池化层的尺度为2*2,卷积步长为1*1;所述第三个卷积模块和第四个卷积模块中均包括:一个所述分路层、4个卷积核为1*1的卷积层、1个卷积核为3*3的卷积层和1个卷积核为7*1的卷积层和1个卷积核为1*7的卷积层、所述池化层和所述特征拼接层,其中,所述1个卷积核为7*1的卷积层和1个卷积核为1*7的卷积层构成一个卷积核7*7的卷积层,所述池化层的尺度为2*2,卷积步长为1*1。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611239071.2/,转载请声明来源钻瓜专利网。
- 上一篇:电网多任务在线协同编辑方法
- 下一篇:电感耦合等离子体质谱分析方法及质谱仪