[发明专利]一种基于实时人脸辅助的语音端点检测方法在审
申请号: | 202110346035.0 | 申请日: | 2021-03-31 |
公开(公告)号: | CN113160853A | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 鱼海航 | 申请(专利权)人: | 深圳鱼亮科技有限公司 |
主分类号: | G10L25/78 | 分类号: | G10L25/78;G10L15/05;G10L15/04;G10L15/02;G06K9/00 |
代理公司: | 合肥律众知识产权代理有限公司 34147 | 代理人: | 殷娟 |
地址: | 518101 广东省深圳市宝安区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 实时 辅助 语音 端点 检测 方法 | ||
1.一种基于实时人脸辅助的语音端点检测方法,其特征在于:包括以下步骤:
步骤一,通过实时图像录取设备,获取用户面部的实时影像信息,并将影像信息传输至后台的控制中心,利用图像处理技术,对影像信息进行特征提取,获取影像信息中与用户面部相关的动作帧;
步骤二,提取用户面部特征,根据面部特征,确定数量不同的基准点,利用基准点构建用户的面部动作数据库,每个特定的面部动作由数个基准点组成,将步骤一中获取的动作帧与面部动作数据库中的面部特征进行对比,获取用户是否进行语言动作的信息;
步骤三,当获取用户进行语言动作的确定信息后,实时计算用户开始进行语言动作的时间和结束语言动作的时间,从而获取语言动作的两个时间端点和时间累计信息;
步骤四,设定语音获取设备的工作时限,将语音获取设备的启动单元与后台的控制中心连接,控制中心基于步骤三中语言动作的两端时间端点对语音获取设备进行启动和关闭,获取与用户相关的语音信息;
步骤五,将步骤四中获取的语音信息分割为多段语音帧段,并预设语音帧段的短时能量和过零率,然后计算每一帧的短时能量和过零率,根据计算结果判定语音端点。
2.根据权利要求1所述的一种基于实时人脸辅助的语音端点检测方法,其特征在于:所述步骤五中分割的语音帧段包括静音段、过度段、语音段和结束段。
3.根据权利要求2所述的一种基于实时人脸辅助的语音端点检测方法,其特征在于:将语音帧段的短时能量预设两个门限值α1和α2,将语音帧段的过零率预设两个门限值β1和β2;
其中,α2>α1,β1>β2。
4.根据权利要求3所述的一种基于实时人脸辅助的语音端点检测方法,其特征在于:连续计算每一帧的短时能量α和过零率β;
若α>α1β>β1,进入过渡段;
若α>α2β>β2,判定语音尚未开始,语音端点未确定;
继续计算下一帧的短时能量和过零率,若α<α2β<β2,判定语音开始,确定语音端点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳鱼亮科技有限公司,未经深圳鱼亮科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110346035.0/1.html,转载请声明来源钻瓜专利网。