[发明专利]人机交互控制方法、系统、智能机器人及存储介质在审
申请号: | 202010056302.6 | 申请日: | 2020-01-18 |
公开(公告)号: | CN111341350A | 公开(公告)日: | 2020-06-26 |
发明(设计)人: | 王华洋;黄华;周院平;孙信中;矫人全 | 申请(专利权)人: | 南京奥拓电子科技有限公司 |
主分类号: | G10L25/87 | 分类号: | G10L25/87;G10L25/03;G10L25/18;G10L25/21;G10L25/24;G10L25/30;G10L15/22;G10L15/25;G06K9/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210039 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 人机交互 控制 方法 系统 智能 机器人 存储 介质 | ||
本发明涉及人机交互控制方法、系统、智能机器人及存储介质,其中,方法包括,获取音频信号;判断获取的音频信号中是否有语音;当判断获取的音频信号中含有语音时,获取预设方向的多帧现场图像;对获取的现场图像进行人脸检测,判断是否存在人脸;当判断现场图像中存在人脸时,对多帧现场图像进行嘴唇检测,得到多帧嘴唇轮廓;判断多帧嘴唇轮廓是否符合预设的嘴唇变化状态,如果结果为是,则确定现场图像中的人脸所属用户具有交互意图。本申请提供的人机交互控制方案,可以对用户的交互意图进行识别判断,避免了对环境噪音以及非交互意图的用户进行交互,可以提升人机交互体验;并能有效降低不必要的数据处理,降低系统开销。
技术领域
本发明涉及人机交互领域,特别是涉及一种人机交互控制方法、系统、智能机器人及存储介质。
背景技术
随着人工智能技术的不断发展,在越来越多的场景中,都采用了人工智能技术,来与用户进行交互,以提供各种各样的服务。其中,人脸识别和语音识别,因为比较贴合人们正常的交流习惯,而在人机交互中占有重要的地位。
目前的人机交互过程中,机器人只要识别到人脸,或者,接收到语音,就会进行反馈。也就是说,机器人默认,识别到的用户,就是具有交互意图的用户。然而在实际场景中,可能会同时存在多人以及机器播报的声音,受到图像/音频的获取角度、获取范围以及随机出现的特点的影响,机器人识别的人脸可能是路过的或者远处的用户,接收到的语音可能是远处的人声或者机器人的播报声音,机器人无法确定识别到的用户是否具有交互的意图,而会导致随机响应的混乱现象,极大的影响了人机交互的体验。
同时,因为无法确定识别到的用户是否具有交互的意图,机器人会对大量无关的图像/语音进行响应,导致机器人进行了很多不必要的数据处理,增加了系统开销。
发明内容
基于此,有必要针对现有人机交互过程中无法确定识别到的用户是否具有交互意图,而存在的人机交互体验差、系统开销大的问题,提供一种人机交互控制方法、系统、智能机器人及存储介质。
本申请一实施例提供了一种人机交互控制方法,包括:
获取音频信号;
判断获取的音频信号中是否有语音;
当判断获取的音频信号中含有语音时,获取预设方向的多帧现场图像;
对获取的现场图像进行人脸检测,判断是否存在人脸;
当判断现场图像中存在人脸时,对多帧现场图像进行嘴唇检测,得到多帧嘴唇轮廓;
判断多帧嘴唇轮廓是否符合预设的嘴唇变化状态,如果结果为是,则确定现场图像中的人脸所属用户具有交互意图。
在一些实施例中,所述获取音频信号的步骤,具体为,获取预设方向上的音频信号。
在一些实施例中,在所述当判断现场图像中存在人脸时,对多帧现场图像进行嘴唇检测,得到多帧嘴唇轮廓的步骤之前,还包括;
对检测出的人脸进行人脸质量评估,当检测出的人脸满足预设人脸质量要求时,才能判断为现场图像中存在人脸。
在一些实施例中,在所述当判断现场图像中存在人脸时,对多帧现场图像进行嘴唇检测,得到多帧嘴唇轮廓的步骤之前,还包括;
计算人脸角度,当人脸角度属于预设人脸角度范围阈值内时,才能判断为现场图像中存在人脸。
在一些实施例中,所述方法还包括:对获取的音频信号进行响应。
本申请一实施例还提供了一种人机交互控制系统,包括:
音频拾取单元,用于获取音频信号;
语音判别单元,用于判断获取的音频信号中是否有语音;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京奥拓电子科技有限公司,未经南京奥拓电子科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010056302.6/2.html,转载请声明来源钻瓜专利网。