[发明专利]用于智能对话语音平台的音频训练和识别方法及电子设备有效
申请号: | 201711320515.X | 申请日: | 2017-12-12 |
公开(公告)号: | CN108109613B | 公开(公告)日: | 2020-08-25 |
发明(设计)人: | 钱彦旻;姜孝伟;王帅;项煦 | 申请(专利权)人: | 苏州思必驰信息科技有限公司;上海交大知识产权管理有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/14;G10L25/18;G10L25/24 |
代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 方挺;黄谦 |
地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开用于智能对话语音平台的音频训练或识别方法、系统及电子设备。其中,方法包括:接收音频数据;提取音频数据的身份向量特征,对身份向量特征进行预处理;其中,预处理包括:提取音频数据的每一帧音频的梅尔频率倒谱系数特征;在每一帧音频的梅尔频率倒谱系数特征的上下文中各扩充L帧后,对因此形成的2L+1帧梅尔频率倒谱系数特征提取身份向量特征,以生成每一帧音频的在线身份向量特征;按照帧级别,将各帧音频的在线身份向量特征和梅尔频率倒谱系数特征进行拼接,以生成音频特征;将预处理后的音频特征输入至基于背景说话人模型的高斯混合模型系统,以进行音频训练或识别处理。能够实现同时匹配说话人身份和说话的内容,识别率更高。 | ||
搜索关键词: | 用于 智能 对话 语音 平台 音频 训练 识别 方法 电子设备 | ||
【主权项】:
1.一种用于智能对话语音平台的音频训练或识别方法,包括:接收音频数据;提取所述音频数据的身份向量特征,对所述身份向量特征进行预处理;其中,所述预处理包括:-提取所述音频数据的每一帧音频的梅尔频率倒谱系数特征;-在所述每一帧音频的梅尔频率倒谱系数特征的上下文中各扩充L帧后,对因此形成的2L+1帧梅尔频率倒谱系数特征提取身份向量特征,以生成每一帧音频的在线身份向量特征;-按照帧级别,将各帧音频的所述在线身份向量特征和所述梅尔频率倒谱系数特征进行拼接,以生成音频特征;将预处理后的所述音频特征输入至基于背景说话人模型的高斯混合模型系统,以进行音频训练或识别处理。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州思必驰信息科技有限公司;上海交大知识产权管理有限公司,未经苏州思必驰信息科技有限公司;上海交大知识产权管理有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711320515.X/,转载请声明来源钻瓜专利网。