[发明专利]一种多模式语音识别送话装置及其控制方法有效

专利信息
申请号: 202010984329.1 申请日: 2020-09-18
公开(公告)号: CN112164389B 公开(公告)日: 2023-06-02
发明(设计)人: 吴传贵;阚艳;徐贵力;周勇军;李珊珊;胡伟;韩梁;张小辉 申请(专利权)人: 国营芜湖机械厂
主分类号: G10L15/01 分类号: G10L15/01;G10L15/22;G10L15/25;G10L15/28
代理公司: 北京汇信合知识产权代理有限公司 11335 代理人: 王帅
地址: 24100*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 模式 语音 识别 装置 及其 控制 方法
【权利要求书】:

1.一种多模式语音识别送话装置,包括通过供电实现装置工作电压转换类功能的电源模块,其特征在于:还包括:

FPGA中央处理模块,与电源模块连接,用于实现中央处理;

2DSP运算处理模块,与FPGA中央处理模块和电源模块连接,用于实现对视频数字信号的唇部分割、特征提取、唇话识别及融合识别类运算处理功能;

音视频输入输出模块,与FPGA中央处理模块和电源模块相连接,将处理融合完成的音频信号通过合成音频输出电路输出;

人机通信控制模块,与FPGA中央处理模块和电源模块连接,用于完成电源开关、模式选择、工作状态显示、光线感应和LED发光控制;

软件程序模块,与FPGA中央处理模块连接,完成音频和视频的融合识别与决策输出;

所述的FPGA中央处理模块包括用于实现对视频信号的数字化处理的SAA7111数字解码器、与SAA7111数字解码器和音视频输入输出模块相连接,完成前级数据的输入缓存和后级数据输出缓存的FIFO单元、通过虚拟的DSP对外主要与音视频输入输出模块相连接用于提供FPGA中央处理模块的外部音频信号的输入输出功能的DSP单元、通过GPIO及人机通信控制模块相连接实现内部功能模块之间的信号控制的CPLD单元、作为FPGA中央处理模块的通信与数据缓存部分,用于提供FPGA中央处理模块的高速数据处理功能的SRIO通信与数据缓存模块、作为FPGA中央处理模块的对外接口连接电路之一,用于实现信号的配置与整合的信号配置整合模块;

所述的音视频输入输出模块包括通过视频信号线与FPGA中央处理模块中的SAA7111数字解码器相连,用于提供用于唇话识别的原始视频信号源的视频采集器、与FPGA中央处理模块中的DSP单元通过IIC和McASP接口相连接收音频信号,实现芯片控制和数据传输,同时将处理融合完成的音频信号通过合成音频输出电路输出的TLV320AIC23B声音采集芯片、通过音频信号线向TLV320AIC23B声音采集芯片提供常规音频和骨传导音频信号的骨感传感器和声音传感器、为DSP单元提供扩展外部数据存储空间的SDRAM1单元。

2.根据权利要求1所述的一种多模式语音识别送话装置,其特征在于:所述的2DSP运算处理模块包括分别通过SRIO 1X接口与FPGA中央处理模块相连接的DSP1单元和DSP2单元。

3.根据权利要求2所述的一种多模式语音识别送话装置,其特征在于:所述的2DSP运算处理模块采用满足装置的实时性和识别率要求且优化图像信息处理能力和系统的可扩展性,实现送话装置的语音识别、唇话识别和融合决策的两片TMS320C6455处理器。

4.根据权利要求1所述的一种多模式语音识别送话装置,其特征在于:所述的人机通信控制模块包括通过GPIO与FPGA中央处理模块中的信号配置整合模块相连,提供USB通讯功能,与外部的训练控制计算机进行通讯,完成训练后的数据下载及接收状态回复的Cy7C68013A通信控制器、通过GPIO与FPGA中央处理模块中的CPLD单元相连接,分别完成电源开关、模式选择、工作状态显示、光线感应和LED发光控制的按键开关类、光线感应控制电路及LED发光控制电路。

5.根据权利要求4所述的一种多模式语音识别送话装置,其特征在于:所述的按键开关类包括电源开关、控制按键、光亮旋钮、液晶显示屏、鼠标、数字键盘。

6.根据权利要求1所述的一种多模式语音识别送话装置,其特征在于:所述的软件程序模块包括用于实现识别算法的训练与数据下载上传的上位机训练控制软件模块、与上位机训练控制软件模块交互用于完成初始化、自检测和故障状态存储与提示、数据更新和USB通讯的嵌入式系统主流程模块、用于完成音频和视频的融合识别与决策输出的嵌入式系统算法模块。

7.根据权利要求6所述的一种多模式语音识别送话装置,其特征在于:所述的嵌入式系统算法模块的音频识别由音频采集、预处理、矢量量化、语音合成和语音识别组成,视频识别由视频采集、预处理、唇部分割、唇部特征提取和视觉识别组成。

8.利用权利要求1至7中任一项所述的一种多模式语音识别送话装置的控制方法,其特征在于:其具体步骤如下:

步骤8.1:初始化及自检测:初始化多模式语音识别送话装置及控制程序,并且进行装置硬件自检测,获取装置各模块工作状态,完成后执行下一步步骤8.2;

步骤8.2:判断装置是否正常:根据装置的自检测模块,从各模块返回的数据,综合对比后给出是否正常,当“故障”时进行故障提示,并且跳转至是否退出步骤8.11,当“正常”时,执行下一步步骤8.3;

步骤8.3:判断装置是否更新:当装置通过USB连接训练控制计算机时, 进行数据更新,更新内容主要为识别算法和系统优化,当需要“更新”时,执行更新程序,否则,执行下一步步骤8.4;

步骤8.4:判断是否为自动设置方式:系统通过“手动/自动”按键设置“自动”和“手动”两种设置方式,默认为“自动”,直接转入下一步步骤8.5;当为“手动”方式,将手动选择工作模式,跳转至设置工作模块,进行工作模式设置;

步骤8.5:环境步骤噪音及光亮:采集处理:根据装置采集到的噪音及光亮情况,自动设置工作模式,当噪音小于参考阈值1时,选择模式“1”;当噪音大于等于参考阈值1,而小于参考阈值2时,选择模式“2”或“3”,当噪音大于等于参考阈值2时,选择模式“4”或“5”;光亮只有当工作在模式“3”、 “4” 、“5”时有效,当光亮小于参考光亮阈值时,将打开LED发光器,否则,关闭LED发光器,处理完成后,执行下一步步骤8.6;

步骤8.6:设置工作模式:自动工作模式设置由环境步骤噪音及光亮:采集处理来选择,手动工作模式设置主要通过人机通信控制模块的工作模式选择按键来选择,系统初始工作模式状态为“1”,工作后将以上次工作模式为初始状态;每按压一次按键,工作模式将依次循环改变,按压等待3秒后,自动完成工作模式设置后,执行下一步步骤8.7,另外,还通过LED开关按键设置LED发光器的工作状态;

步骤8.7:判断是否为模式“X”步骤X值取1至5:当为“1”时,将执行常规音频送话语音模式;当为“2”时,将执行常规组合喉头送话语音模式;当为“3”时,将执行常规组合唇读送话语音模式;当为“4”时,将执行喉头组合唇读送话语音模式;当为“5”时,将执行三者组合送话语音模式;根据模式选择,分别执行不同的送话语音模式步骤8.8;

步骤8.8:执行送话语音模式:根据当前工作模式,执行相应的送话语音模式,具体为:

常规音频送话语音模式,仅仅声音传感器有效工作,骨感传感器和视频采集不参加语音识别;

常规组合喉头送话语音模式,主要是声音传感器和骨感传感器有效工作,视频采集不参加语音识别;

常规组合唇读送话语音模式,主要是声音传感器和视频采集有效工作,骨感传感器不参加语音识别;

喉头组合唇读送话语音模式,主要是骨感传感器和视频采集有效工作,声音传感器不参加语音识别;

三者组合送话语音模式,主要是声音传感器、骨感传感器和视频采集三者同时有效工作,进行综合融合识别,然后,执行下一步步骤8.9;

步骤8.9:语音信息输出:输出融合后的语音信息后,执行下一步步骤8.10;

步骤8.10:判断是否中断:检查外部是否有中断,当没有中断时,将跳转至判断是否为模式“X”步骤8.7,否则,执行下一步步骤8.11;

步骤8.11:判断是否退出:检查有无退出信号,当没有退出信号时,将跳转至判断装置是否正常步骤8.3,否则,执行下一步步骤8.12;

步骤8.12:退出:退出程序,结束控制程序。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国营芜湖机械厂,未经国营芜湖机械厂许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010984329.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top