[发明专利]病理语音的识别方法、装置、设备及存储介质在审
申请号: | 202111139827.7 | 申请日: | 2021-09-28 |
公开(公告)号: | CN113870903A | 公开(公告)日: | 2021-12-31 |
发明(设计)人: | 刘源;王健宗;彭俊清 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L25/66 | 分类号: | G10L25/66;G10L25/24;G10L25/27 |
代理公司: | 北京市京大律师事务所 11321 | 代理人: | 姚维 |
地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 病理 语音 识别 方法 装置 设备 存储 介质 | ||
本发明涉及人工智能技术领域,应用于智慧医疗领域中,提供一种病理语音的识别方法、装置、设备及存储介质,用于提高对病理语音识别的准确率。病理语音的识别方法包括:对语音数据依次进行数据处理得到已分割语音信号;对已分割语音信号依次进行小波变换的多频带分解和倒谱分析得到倒谱数据;对倒谱数据分别进行梅尔频率倒谱系数转换和时频分阶数提取,得到梅尔频率倒谱系数和时频分阶梅尔频率倒谱系数;根据梅尔频率倒谱系数和时频分阶梅尔频率倒谱系数获取目标语音特征向量;通过预置的多层感知器,对目标语音特征向量进行语音类别概率计算和概率判别,得到分类结果。此外,本发明还涉及区块链技术,语音数据和分类结果可存储于区块链中。
技术领域
本发明涉及智能决策领域,尤其涉及一种病理语音的识别方法、装置、设备及存储介质。
背景技术
随着人工智能的兴起,用于病理语音检测的医疗平台或医疗系统可以支持疾病辅助诊断、健康管理和远程会诊等功能。病理语音通常指的是由于发声器官发生病变而引起的异常发音。目前,对于病理语音的检测方法一般都是对病理语音检测进行声学参数提取,得到声学参数,通过声学参数进行识别,然而,对病理语音检测的鲁棒性较差,导致了对病理语音识别的准确率较低。
发明内容
本发明提供一种病理语音的识别方法、装置、设备及存储介质,用于提高对病理语音识别的准确率。
本发明第一方面提供了一种病理语音的识别方法,包括:
获取语音数据,对所述语音数据依次进行预处理、信号归一化和信号分割,得到已分割语音信号;
对所述已分割语音信号依次进行小波变换的多频带分解和倒谱分析,得到倒谱数据;
对所述倒谱数据分别进行梅尔频率倒谱系数转换和时频分阶数提取,得到梅尔频率倒谱系数和时频分阶梅尔频率倒谱系数;
根据所述梅尔频率倒谱系数和所述时频分阶梅尔频率倒谱系数构造预设维度的特征向量,得到初始语音特征向量,并对所述初始语音特征向量进行基于特征值时间序列的特征选择,得到目标语音特征向量;
通过预置的多层感知器,对所述目标语音特征向量进行语音类别概率计算和概率判别,得到分类结果,所述多层感知器包括三个卷积层以及每个卷积层连接的最大池化层、两个完整连接层和一个输出层,所述分类结果包括正常语音和病理语音。
可选的,在本发明第一方面的第一种实现方式中,所述通过预置的多层感知器,对所述目标语音特征向量进行语音类别概率计算和概率判别,得到分类结果,所述多层感知器包括三个卷积层以及每个卷积层连接的最大池化层、两个完整连接层和一个输出层,所述分类结果包括正常语音和病理语音,包括:
通过预置的多层感知器的三个卷积层,计算所述目标语音特征向量中每个特征图的隐藏单元值,得到语音特征向量的隐藏单元值;
通过所述多层感知器的最大池化层,对所述语音特征向量的隐藏单元值进行降维处理,得到初始语音特征;
通过所述多层感知器的两个完整连接层,对所述初始语音特征进行拟合,得到待分类特征向量;
通过所述多层感知器的一个输出层,基于所述待分类特征向量进行语音类别概率计算并输出分类结果,所述分类结果包括正常语音和病理语音。
可选的,在本发明第一方面的第二种实现方式中,所述对所述已分割语音信号依次进行小波变换的多频带分解和倒谱分析,得到倒谱数据,包括:
通过预置的离散小波变换算法,对所述已分割语音信号中的每段语音信号进行多级子带分解,得到分解后的语音信号;
通过预置的倒谱算法,对所述分解后的语音信号依序进行傅立叶变换和傅里叶逆变换,得到倒谱数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111139827.7/2.html,转载请声明来源钻瓜专利网。