[发明专利]一种婴儿啼哭原因的预测方法及装置在审
申请号: | 201811592904.2 | 申请日: | 2018-12-25 |
公开(公告)号: | CN109509484A | 公开(公告)日: | 2019-03-22 |
发明(设计)人: | 鲍晓 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G10L25/18 | 分类号: | G10L25/18;G10L25/21;G10L25/72;G06K9/00 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张小娜;王宝筠 |
地址: | 230088 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 婴儿 视频数据 目标视频数据 目标音频数据 原始视频数据 预测 原始音频数据 获取目标 同步录制 行为动作 音频数据 预测目标 申请 视频 | ||
1.一种婴儿啼哭原因的预测方法,其特征在于,包括:
通过对目标婴儿的音频和视频进行同步录制,获取所述目标婴儿在啼哭时段内的原始音频数据与原始视频数据,分别作为目标音频数据与目标视频数据,所述原始视频数据包括所述目标婴儿的面部特写视频数据和/或行为动作视频数据;
根据所述目标音频数据与所述目标视频数据,预测所述目标婴儿的啼哭原因。
2.根据权利要求1所述的方法,其特征在于,获取所述目标婴儿在啼哭时段内的原始音频数据之后,还包括:
将所述原始音频数据由时域信号转换为频域信号,并生成所述频域信号的功率谱特征;
将所述功率谱特征中的每一特征元素转换为预设范围内的数值,并将转换后的数据作为所述目标音频数据。
3.根据权利要求1所述的方法,其特征在于,获取所述目标婴儿在啼哭时段内的原始视频数据之后,还包括:
若所述原始视频数据中包括所述面部特写视频数据,则从所述面部特写视频数据的各个帧图像中分离出所述目标婴儿的五官部分;
若所述原始视频数据中包括所述行为动作视频数据,则从所述行为动作视频数据的各个帧图像中分离出所述目标婴儿的身体部分;
将分离出的图像数据作为所述目标视频数据。
4.根据权利要求1所述的方法,其特征在于,所述根据所述目标音频数据与所述目标视频数据,预测所述目标婴儿的啼哭原因,包括:
过滤所述目标音频数据中的冗余信息,得到过滤音频数据,所述冗余信息是对预测所述啼哭原因无用的信息;
根据所述过滤音频数据与所述目标视频数据,预测所述目标婴儿的啼哭原因。
5.根据权利要求4所述的方法,其特征在于,所述过滤所述目标音频数据中的冗余信息,包括:
利用预先训练得到的模拟滤波器系数,过滤所述目标音频数据中的冗余信息。
6.根据权利要求4所述的方法,其特征在于,所述根据所述过滤音频数据与所述目标视频数据,预测所述目标婴儿的啼哭原因,包括:
将所述过滤音频数据输入到二维卷积神经网络中进行编码,得到音频编码特征;
若所述目标视频数据中包括面部特写视频数据,则将所述面部特写视频数据输入到三维卷积神经网络中进行编码,得到面部视频编码特征;
若所述目标视频数据中包括行为动作视频数据,则将所述行为动作视频数据输入到三维卷积神经网络中进行编码,得到行为视频编码特征;
根据得到的编码特征,预测所述目标婴儿的啼哭原因。
7.根据权利要求6所述的方法,其特征在于,所述音频编码特征是利用二维卷积核对所述过滤音频数据进行卷积得到的;
所述面部视频编码特征是利用三维卷积核对所述面部特写视频数据进行卷积得到的;
所述行为视频编码特征是利用三维卷积核对所述行为动作视频数据进行卷积得到的。
8.根据权利要求6所述的方法,其特征在于,所述根据得到的编码特征,预测所述目标婴儿的啼哭原因,包括:
基于注意力机制,对得到的编码特征进行解码,得到解码特征;
根据所述解码特征,预测所述目标婴儿的啼哭原因。
9.根据权利要求1至8任一项所述的方法,所述根据所述目标音频数据与所述目标视频数据,预测所述目标婴儿的啼哭原因,包括:
利用预先构建的啼哭原因预测模型,根据所述目标音频数据与所述目标视频数据,预测所述目标婴儿的啼哭原因;
其中,所述啼哭原因预测模型是采用目标函数训练得到的,所述目标函数用于提升具有相同啼哭原因的音视频数据的解码特征之间的相似度、且用于降低具有不同啼哭原因的音视频数据对应的解码特征之间的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811592904.2/1.html,转载请声明来源钻瓜专利网。