[发明专利]婴儿哭声的辩识方法及其系统有效
申请号: | 201611018516.4 | 申请日: | 2016-11-17 |
公开(公告)号: | CN106653001B | 公开(公告)日: | 2020-03-27 |
发明(设计)人: | 沈晓明 | 申请(专利权)人: | 沈晓明 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L25/48 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 200135 上海市浦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 婴儿 哭声 方法 及其 系统 | ||
本发明涉及婴儿哭声的分析,公开了一种婴儿哭声的辩识方法及其系统。本发明中,通过从训练数据中提取特征参数向量,并进行主成分分析得到并选出多个主成分,依据待辨别数据在各主成分特征向量上的投影分值来确定婴儿啼哭原因的概率分布,可以以较少的训练计算量,较为准确地得到一段婴儿啼哭音频在多个啼哭原因上的概率分布,容错性较好。
技术领域
本发明涉及婴儿哭声的分析,特别涉及婴儿啼哭原因的辩识技术。
背景技术
啼哭是婴儿的第一种发音方式,也是小婴儿与外界沟通的唯一方式。有经验的妈妈和医生能够通过婴儿哭声了解婴儿的情绪、需求和健康。由于现代社会出生率的下降,很多妈妈只有一个孩子,缺少相关的经验,急需技术手段来帮助年轻的妈妈们通过哭声来了解婴儿的需求。
201310347807.8的中国发明专利提出了一种基于深层神经网络的婴儿啼哭声辩识方法方法,该方法包括以下步骤:采集训练用婴儿啼哭声数据;对所述训练用婴儿啼哭声数据进行分类标注;提取每一个分类标注的训练用婴儿啼哭声数据中每段音频的梅尔域倒谱系数以生成训练用数据文件;根据所述训练用数据文件并采用逐层预训练的方式得到深层神经网络中每一层的初始权值;根据深层神经网络中所有层的初始权值并采用BP算法获取所述深层神经网络的哭声模型;采集待辩识的婴儿啼哭声数据,提取待辩识的婴儿啼哭声数据中每段音频的梅尔域倒谱系数;根据待辩识的婴儿啼哭声数据中每段音频的梅尔域倒谱系数和所述哭声模型进行哭声辩识。
本发明的发明人发现,上述专利中技术方案的主要的问题在于,只能给出一个啼哭原因,实际使用时,因为录音设备的性能参差不齐,录音者操作能力参差不齐,环境噪声的影响等原因,导致这个啼哭原因的准确性往往远不如宣称的那么高。而没有经验的年轻妈妈在婴儿啼哭时本就比较慌乱,如果尝试解决这个原因之后婴儿还在继续啼哭,会更为慌乱,不知所措。此外,深层神经网络的训练计算量很大,训练的时间比较长,对训练用的计算机设备的要求比较高。
发明内容
本发明的目的在于提供一种婴儿哭声的辩识方法及其系统,以较少的训练计算量,较为准确地得到一段婴儿啼哭音频在多个啼哭原因上的概率分布。
为解决上述技术问题,本发明的实施方式公开了一种婴儿哭声的辩识方法,包括以下步骤:
a获取婴儿哭声音频的多段训练数据,每个训练数据对应一个已知啼哭原因;
b对每一段训练数据进行特征提取,得到每一段训练数据的特征参数向量;
c对所述多段训练数据的特征参数向量进行主成分分析,得到多个主成分;
d计算每一种啼哭原因对应的训练数据在各主成分上投影分值的均值和方差,根据该方差在所述多个主成分中选择P个主成分,P为大于1的整数;
e获取婴儿哭声音频的待辩识数据,并在所述P个主成分上计算该待辩识数据的投影分值;
f根据该待辩识数据的投影分值和所述均值和方差计算该待辩识数据对应于各个原因的概率。
在一实施方式中,所述步骤c包括以下子步骤:
所述多段训练数据包括N个哭声信号样本,对该N个哭声信号样本分别提取K个特征参数,其中,第n个哭声信号提取出的K个特征参数记为特征参数向量sn=[sn1,sn2,…,snK]T;
对所述N个哭声信号样本,计算所述K个特征参数所对应的协方差矩阵,记为C,其中,C为K乘K的矩阵;
对所述协方差阵进行特征值分解,得到K个特征值和相应于该K个特征值的特征向量。
在一实施方式中,所述步骤d包括以下子步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈晓明,未经沈晓明许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611018516.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于语音信息的情感强度实验方法
- 下一篇:一种文字直播方法及平台