[发明专利]基于机器学习的PLC语音识别方法在审
| 申请号: | 202110319744.X | 申请日: | 2021-03-25 |
| 公开(公告)号: | CN113643692A | 公开(公告)日: | 2021-11-12 |
| 发明(设计)人: | 侯龙潇;李建普;赵聪;李晓鹏;杨成林;雷珊珊;范宦潼;白保坤;赵贤;谢沙沙 | 申请(专利权)人: | 河南省机械设计研究院有限公司 |
| 主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/14;G10L15/22 |
| 代理公司: | 郑州铭晟知识产权代理事务所(特殊普通合伙) 41134 | 代理人: | 张万利 |
| 地址: | 450000*** | 国省代码: | 河南;41 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 机器 学习 plc 语音 识别 方法 | ||
1.基于机器学习的PLC语音识别方法,其特征在于,具体实现步骤如下,
a,采集语音信号样本;
b,语音信号端点检测、特征提取;
c,训练HMM-GMM模型;
d,建立语音指令与PLC寄存器数据的映射关系;
e,采集语音指令;
f,对语音指令进行端点检测、特征提取;
g,将语音指令的特征与模型进行匹配;
h,匹配结果通过与PLC寄存器数据的映射关系修改寄存器数据。
2.如权利要求1所述的基于机器学习的PLC语音识别方法,其特征在于,所述步骤a中采集语音信号样本的步骤如下,
A1,设置每个语音信号样本采集次数;
A2,设置语音信号样本的保存路径;
A3,设置格式为pyaudio.paInt16,声道数为1,采样率16000,单个语音信号录音时长为2.5s;
A4,使用pyaudio模块进行语音的采集;
A5,使用wave模块对采集的语音信号样本进行保存;
A6,使用谱减法对语音信号样本进行去噪;
A7,循环执行直至达到设置的采集次数。
3.如权利要求1所述的基于机器学习的PLC语音识别方法,其特征在于,所述步骤b中语音信号端点检测的步骤如下,
Bj1,取一个较高的短时能量作为阈值MH,利用这个阈值,先分出语音中的浊音部分,A1到A2区间;
Bj2,取一个较低的能量阈值ML,利用这个阈值,从A1,A2,向两端进行搜索,将较低能量段的语音部分也加入到语音段,进一步扩大语音段范围,B1-B2之间还是语音段;
Bj3,利用短时过零率区分辅音、静音,短时过零率的阈值为Zs,将利用短时能量区分完的语音段继续向两端进行搜索,短时过零率大于3倍Zs的部分,则认为是语音的清音部分,将该部分加入语言段,就是求得的语音段,C1-C2之间是语音段。
4.如权利要求1所述的基于机器学习的PLC语音识别方法,其特征在于,所述步骤b中语音信号特征提取的步骤如下,
Bt1,先对语音进行预加重、分帧和加窗;
Bt2,对每一个短时分析窗,通过FFT得到对应的频谱;
Bt3,将上面的频谱通过Mel滤波器组得到Mel频谱;
Bt4,在Mel频谱上面进行倒谱分析,取对数,做逆变换,实际逆变换一般是通过DCT离散余弦变换来实现,取DCT后的第2个到第13个系数作为MFCC系数,获得Mel频率倒谱系数MFCC,这个MFCC就是这帧语音的特征。
5.如权利要求1所述的基于机器学习的PLC语音识别方法,其特征在于,所述步骤c训练HMM-GMM模型的步骤如下,
C1,对语音信号的音素分别使用HMM-GMM建模,使用3状态建模,其中HMM的发射概率使用高斯分布函数建模;
C2,初始化对齐,将语音信号的帧平均对应到每个状态;
C3,更新模型参数,统计获得每个状态的转移的次数,除以总转移次数,获得每种状态的转移概率,计算状态的MFCC特征的均值向量和协方差矩阵,即发射概率;
C4,使用维特比算法,根据上一步得到的转移概率和发射概率,重新对语音信号进行状态级别的对齐;
C5,重复步骤C2,步骤C3,直至收敛;
C6,保存训练完成的模型。
6.如权利要求1所述的基于机器学习的PLC语音识别方法,其特征在于,所述步骤d中建立语音指令与PLC寄存器数据的映射关系的步骤如下,
D1,PLC的数据存储通过Tag的形式与存储区间关联,分为输入(I)、输出(O)、位存储(M)和数据块(DB);
D2,使用snap7建立PC与PLC寄存器的链接;
D3,语音指令与PLC数据寄存器数据的映射, PLC所执行命令操作的原理是修改对应寄存器地址中的数据。
7.如权利要求1所述的基于机器学习的PLC语音识别方法,其特征在于,所述步骤g中将语音指令的特征与模型进行匹配的步骤如下,
G1,导入训练完成的模型组;
G2,创建预测分数列表;
G3,将输入的语音和模型组的每个模型进行匹配;
G4,计算匹配得分,并存入预测分数列表;
G5,筛选出的分最高的模型;
G6,输出该模型对应的语音信号标志。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南省机械设计研究院有限公司,未经河南省机械设计研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110319744.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种具有多网融合的轨道交通信号系统
- 下一篇:基于文本超分辨的甲骨文识别





