首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种婴儿啼哭原因的预测方法及装置在审

申请号：	201811592904.2	申请日：	2018-12-25
公开（公告）号：	CN109509484A	公开（公告）日：	2019-03-22
发明（设计）人：	鲍晓	申请（专利权）人：	科大讯飞股份有限公司
主分类号：	G10L25/18	分类号：	G10L25/18;G10L25/21;G10L25/72;G06K9/00
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	张小娜;王宝筠
地址：	230088 安徽***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	婴儿视频数据目标视频数据目标音频数据原始视频数据预测原始音频数据获取目标同步录制行为动作音频数据预测目标申请视频
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种婴儿啼哭原因的预测方法，其特征在于，包括：

通过对目标婴儿的音频和视频进行同步录制，获取所述目标婴儿在啼哭时段内的原始音频数据与原始视频数据，分别作为目标音频数据与目标视频数据，所述原始视频数据包括所述目标婴儿的面部特写视频数据和/或行为动作视频数据；

根据所述目标音频数据与所述目标视频数据，预测所述目标婴儿的啼哭原因。

2.根据权利要求1所述的方法，其特征在于，获取所述目标婴儿在啼哭时段内的原始音频数据之后，还包括：

将所述原始音频数据由时域信号转换为频域信号，并生成所述频域信号的功率谱特征；

将所述功率谱特征中的每一特征元素转换为预设范围内的数值，并将转换后的数据作为所述目标音频数据。

3.根据权利要求1所述的方法，其特征在于，获取所述目标婴儿在啼哭时段内的原始视频数据之后，还包括：

若所述原始视频数据中包括所述面部特写视频数据，则从所述面部特写视频数据的各个帧图像中分离出所述目标婴儿的五官部分；

若所述原始视频数据中包括所述行为动作视频数据，则从所述行为动作视频数据的各个帧图像中分离出所述目标婴儿的身体部分；

将分离出的图像数据作为所述目标视频数据。

4.根据权利要求1所述的方法，其特征在于，所述根据所述目标音频数据与所述目标视频数据，预测所述目标婴儿的啼哭原因，包括：

过滤所述目标音频数据中的冗余信息，得到过滤音频数据，所述冗余信息是对预测所述啼哭原因无用的信息；

根据所述过滤音频数据与所述目标视频数据，预测所述目标婴儿的啼哭原因。

5.根据权利要求4所述的方法，其特征在于，所述过滤所述目标音频数据中的冗余信息，包括：

利用预先训练得到的模拟滤波器系数，过滤所述目标音频数据中的冗余信息。

6.根据权利要求4所述的方法，其特征在于，所述根据所述过滤音频数据与所述目标视频数据，预测所述目标婴儿的啼哭原因，包括：

将所述过滤音频数据输入到二维卷积神经网络中进行编码，得到音频编码特征；

若所述目标视频数据中包括面部特写视频数据，则将所述面部特写视频数据输入到三维卷积神经网络中进行编码，得到面部视频编码特征；

若所述目标视频数据中包括行为动作视频数据，则将所述行为动作视频数据输入到三维卷积神经网络中进行编码，得到行为视频编码特征；

根据得到的编码特征，预测所述目标婴儿的啼哭原因。

7.根据权利要求6所述的方法，其特征在于，所述音频编码特征是利用二维卷积核对所述过滤音频数据进行卷积得到的；

所述面部视频编码特征是利用三维卷积核对所述面部特写视频数据进行卷积得到的；

所述行为视频编码特征是利用三维卷积核对所述行为动作视频数据进行卷积得到的。

8.根据权利要求6所述的方法，其特征在于，所述根据得到的编码特征，预测所述目标婴儿的啼哭原因，包括：

基于注意力机制，对得到的编码特征进行解码，得到解码特征；

根据所述解码特征，预测所述目标婴儿的啼哭原因。

9.根据权利要求1至8任一项所述的方法，所述根据所述目标音频数据与所述目标视频数据，预测所述目标婴儿的啼哭原因，包括：

利用预先构建的啼哭原因预测模型，根据所述目标音频数据与所述目标视频数据，预测所述目标婴儿的啼哭原因；

其中，所述啼哭原因预测模型是采用目标函数训练得到的，所述目标函数用于提升具有相同啼哭原因的音视频数据的解码特征之间的相似度、且用于降低具有不同啼哭原因的音视频数据对应的解码特征之间的相似度。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司，未经科大讯飞股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811592904.2/1.html，转载请声明来源钻瓜专利网。

上一篇：产生频率增强音频信号的译码器和产生编码信号的编码器
下一篇：智能化听力锻炼方法及装置

同类专利

专利分类

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top