[发明专利]智能识别婴儿哭声类别的方法及装置有效
申请号: | 202110222720.2 | 申请日: | 2021-02-26 |
公开(公告)号: | CN112967733B | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 陈辉;张智;谢鹏;雷奇文;艾伟;胡国湖 | 申请(专利权)人: | 武汉星巡智能科技有限公司 |
主分类号: | G10L25/51 | 分类号: | G10L25/51;G06F18/25;G06N3/0442;G06N3/08;G10L25/03;G10L25/18;G10L25/24;G10L25/30 |
代理公司: | 成都恪睿信专利代理事务所(普通合伙) 51303 | 代理人: | 陈兴强 |
地址: | 430000 湖北省武汉市洪山区*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 智能 识别 婴儿 哭声 类别 方法 装置 | ||
本发明属于语音识别技术领域,解决了通过语音识别判断婴儿哭声,存在准确性低的技术问题,提供了一种智能识别婴儿哭声类别的方法和装置。该方法包括:至少获取婴儿啼哭时声音的音频特征和与婴儿声带振动相对应的振动频谱;对所述音频特征和所述振动频谱进行特征融合,输出融合后的融合特征;将所述融合特征输入预置的神经网络,输出与哭泣状态对应的编码特征向量;根据所述编码特征向量,输出所述哭泣状态的哭声类别。本发明还包括用于执行上述方法的装置。本发明利用婴儿声带振动的振动频谱结合哭声的音频特征判断婴儿哭声类型;能够准确检测婴儿个体差异造成的发声差异,提高婴儿哭声类别识别的准确性。
技术领域
本发明涉及语音识别技术领域,尤其涉及一种智能识别婴儿哭声类别的方法及装置。
背景技术
随着语音识别技术的发展,将语音识别应用到越来越多的领域,比如识别婴儿各种类别的哭声,以确定婴儿对应的各种状况。针对婴儿哭声的识别,一般采用的方法为:采用语音采集技术采集哭声,将采集得到的哭声与已设置的婴儿哭声相匹配,确定是否为婴儿哭声,再将确认的婴儿哭声与已设置的哭声类别相匹配,匹配成功后,就可以确认采集的哭声对应的哭声类别,最终确认婴儿哭声的具体含义。但是,由于婴儿个体之间存在差异,相同哭声表达的不同的需求,特别是在婴儿发声异常时,如声音沙哑、有异物,此时采集的音频信息明显无法判断出婴儿的哭声类别;因此,采用语音识别技术识别婴儿哭声时,准确度和精准度不高,导致用户体验度不高。
发明内容
有鉴于此,本发明实施例提供了一种智能识别婴儿哭声类别的方法及装置,用以解决通过语音识别判断婴儿哭声,存在准确性低的技术问题。
本发明采用的技术方案是:
本发明提供了一种智能识别婴儿哭声类别的方法,所述方法包括:
S20:至少获取婴儿啼哭时声音的音频特征和与婴儿声带振动相对应的振动频谱;
S21:对所述音频特征和所述振动频谱进行特征融合,输出融合后的融合特征;
S22:将所述融合特征输入预置的神经网络,输出与哭泣状态对应的编码特征向量;
S23:根据所述编码特征向量,输出所述哭泣状态的哭声类别。
优选地,所述S20包括:
S201:获取婴儿哭声对应的音频信号;
S202:利用梅尔滤波器对所述音频信号进行特征提取,得到所述音频特征;
其中,所述音频特征为梅尔频率倒谱系数MFCC特征。
优选地,所述S20包括:
S203:获取婴儿啼哭时与声带振动相对应的电信号;
S204:根据所述音频信号中各帧音频的时间长度对所述电信号进行分段,得到多个连续的电信号片段;
S205:对多个连续的所述电信号片段进行短时傅里叶变换,输出所述振动频谱。
优选地,所述S21包括:
S211:对各帧音频的MFCC特征和各所述电信号片段的所述振动频谱进行主成分分析法降维处理,输出降维后的所述音频信号中各帧音频的MFCC特征和各所述电信号片段;
S212:对降维后的各帧音频的所述MFCC特征与各帧音频对应的电信号的所述振动频谱进行特征融合,得到各所述融合特征。
优选地,所述S212包括:
S2121:获取所述振动频谱的频率变化阈值,以及与各帧音频相对应的振动频谱的振动频率;
S2122:利用所述频率变化阈值对各所述振动频率进行分段,得到多个连续的频率段;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉星巡智能科技有限公司,未经武汉星巡智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110222720.2/2.html,转载请声明来源钻瓜专利网。