[发明专利]一种基于深度学习目标检测的语音识别方法有效
申请号: | 201711268206.2 | 申请日: | 2017-12-05 |
公开(公告)号: | CN107945791B | 公开(公告)日: | 2021-07-20 |
发明(设计)人: | 李莹莹;肖南峰 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G10L15/05 | 分类号: | G10L15/05;G10L15/06;G10L15/26;G10L19/02;G10L21/0216 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 冯炳辉 |
地址: | 510006 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 目标 检测 语音 识别 方法 | ||
1.一种基于深度学习目标检测的语音识别方法,其特征在于,包括以下步骤:
1)对输入语音进行录制存储,利用声卡采集声音数据并保存;
2)将语音转化为语谱图,具体过程是:利用短时傅里叶变换对步骤1)采集的声音数据进行处理,将原始语音信号用三维图谱的方式显示,其中,横轴表示时间,纵轴表示频率,颜色深浅表示局部时频交叉域能量的大小;
3)制作语谱图数据集,对语谱图的局部有效区域进行标注,具体过程是:利用标注工具对步骤2)变换的语谱图中的有效交叉区域进行标注,得到每个有效区域的边界框信息并保存,制作成为数据集,再将数据集分为训练集和验证集;
4)将有标注的语谱图训练集作为输入,对检测模型进行有监督的训练,这里的检测模型使用YOLOv2目标检测模型,该检测模型是一个端到端的网络结构,具有实时性,具体如下:
4.1)维度聚类:在训练开始之前选择出所需的先验框的维度,能够提高预测的准确率;具体做法是采用k-means聚类方法训练边界框,自动找到与所有边界框宽高纬度最接近的先验框维度;k-means聚类算法是采用距离作为相似性评价指标,即被聚类的两个对象距离越近,两者的相似度越高,距离同一个聚类中心比其它聚类中心更近的几个对象被认为是统一类别的对象,最终得到的结果是k个聚类中心点;改进的评价指标采用IOU得分制,其中IOU指的是两个边框的交集与并集之比,设有框A与框B,用S(A∩B)表示A与B相交的面积,S(A∪B)表示A与B相并的面积,则A与B的IOU计算公式如下:
每个先验框到聚类中心点的IOU即该先验框属于这个中心点所指类别的概率,IOU越大,相反的计算距离越小,该先验框属于该类的可能性越大,最终得到的距离公式如下:
d(box,centroid)=1-IOU(box,centroid)
其中,box为先验框,centroid为距离中心;
4.2)参数调整:针对不同的数据集训练网络需要使用不同的参数,根据训练集中的类别修改配置文件中classes选项的数值和names文件中类别的名称,根据训练集和验证集的所在文件路径修改data文件中train和validate的参数值;最终配置文件中输出层的参数个数为K*(4+1+C),其中,K为步骤4.1)中通过k-means算法得到最合适的先验框的个数,而步骤4.1)中YOLOv2的每个先验框包含(4+1+C)个参数,其中数字4为每个先验框的坐标参数个数,数字1为Confidence,是每个先验框的置信度,C指的是训练集样本类别的个数;
4.3)训练网络:在终端命令行中输入训练命令,调用步骤4.2)修改过参数的配置文件,开始对网络进行有监督的训练;
5)测试训练结果,具体过程是:将步骤4.3)训练得到的最终权重作为测试使用的权重,对需要测试语谱图数据进行测试,将得到的预测结果转换成对应的文字并输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711268206.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:语音识别方法、装置及计算机可读存储介质
- 下一篇:语音处理方法和装置