[发明专利]用于智能对话语音平台的音频训练和识别方法及电子设备有效

申请号：	201711320515.X	申请日：	2017-12-12
公开（公告）号：	CN108109613B	公开（公告）日：	2020-08-25
发明（设计）人：	钱彦旻;姜孝伟;王帅;项煦	申请（专利权）人：	苏州思必驰信息科技有限公司;上海交大知识产权管理有限公司
主分类号：	G10L15/02	分类号：	G10L15/02;G10L15/06;G10L15/14;G10L25/18;G10L25/24
代理公司：	北京商专永信知识产权代理事务所(普通合伙) 11400	代理人：	方挺;黄谦
地址：	215123 江苏省苏州市苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开用于智能对话语音平台的音频训练或识别方法、系统及电子设备。其中，方法包括：接收音频数据；提取音频数据的身份向量特征，对身份向量特征进行预处理；其中，预处理包括：提取音频数据的每一帧音频的梅尔频率倒谱系数特征；在每一帧音频的梅尔频率倒谱系数特征的上下文中各扩充L帧后，对因此形成的2L+1帧梅尔频率倒谱系数特征提取身份向量特征，以生成每一帧音频的在线身份向量特征；按照帧级别，将各帧音频的在线身份向量特征和梅尔频率倒谱系数特征进行拼接，以生成音频特征；将预处理后的音频特征输入至基于背景说话人模型的高斯混合模型系统，以进行音频训练或识别处理。能够实现同时匹配说话人身份和说话的内容，识别率更高。
搜索关键词：	用于智能对话语音平台音频训练识别方法电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种用于智能对话语音平台的音频训练或识别方法，包括：接收音频数据；提取所述音频数据的身份向量特征，对所述身份向量特征进行预处理；其中，所述预处理包括：-提取所述音频数据的每一帧音频的梅尔频率倒谱系数特征；-在所述每一帧音频的梅尔频率倒谱系数特征的上下文中各扩充L帧后，对因此形成的2L+1帧梅尔频率倒谱系数特征提取身份向量特征，以生成每一帧音频的在线身份向量特征；-按照帧级别，将各帧音频的所述在线身份向量特征和所述梅尔频率倒谱系数特征进行拼接，以生成音频特征；将预处理后的所述音频特征输入至基于背景说话人模型的高斯混合模型系统，以进行音频训练或识别处理。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于苏州思必驰信息科技有限公司;上海交大知识产权管理有限公司，未经苏州思必驰信息科技有限公司;上海交大知识产权管理有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201711320515.X/，转载请声明来源钻瓜专利网。

上一篇：一种直观控制基音和泛音并合成声音的学习教具系统
下一篇：一种新型的机器人带噪音语音识别装置及方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]用于智能对话语音平台的音频训练和识别方法及电子设备有效

专利文献下载