[发明专利]一种追踪目标人的语义识别装置及识别方法有效
申请号: | 201711126940.5 | 申请日: | 2017-11-15 |
公开(公告)号: | CN107862060B | 公开(公告)日: | 2021-03-23 |
发明(设计)人: | 王建华;王新群;赵洁;陈宇彬;何珺;丁录国;周乃鹏 | 申请(专利权)人: | 吉林大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/683;G10L17/02 |
代理公司: | 长春吉大专利代理有限责任公司 22201 | 代理人: | 杜森垚 |
地址: | 130012 吉*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 追踪 目标 语义 识别 装置 方法 | ||
1.一种追踪目标人的语义识别装置,其特征在于,包括麦克风阵列模块、说话人辨识模块、存储模块、音频数据缓存区以及语义匹配模块;
所述麦克风阵列模块包括语音增强模块以及麦克风矩阵;麦克风矩阵由多个麦克风音频接收端组成,多个麦克风音频接收端设置在外界声场中不同的特定空间位置,采集外界声场中的多路模拟音频信号;语音增强模块用于将麦克风矩阵采集的多路模拟音频信号按照语音增强权系数进行加权合成,加权合成后的音频信号增强了外界声场中特定位置声源的模拟音频信号;
所述说话人辨识模块包括声纹提取模块、声纹匹配模块以及声源定位模块:
声纹提取模块与所述语音增强模块通讯连接,其接收语音增强模块合成的音频信号,并根据声纹提取算法,获取音频信号中表征特定人语音特征的声纹特征;
声纹匹配模块分别与声纹提取模块以及存储模块的声纹存储库通讯连接,分别接收声纹存储库中的声纹模型以及声纹提取模块提取到的声纹特征信息,将声纹模型与声纹特征信息进行相似度匹配,并将相似度匹配结果反馈给声源定位模块;
声源定位模块分别与声纹匹配模块及麦克风阵列模块通讯连接,其接收来自麦克风阵列模块的多路模拟音频信号,以此为依据获知外界声场中不同声源的位置范围,对于每个位置范围生成一组语音增强权系数,使得语音增强模块按照语音增强权系数合成多路音频后,外界声场中特定位置范围的音频信号被增强;
所述声源定位模块的工作过程分为三个阶段:
探索阶段:所述麦克风阵列采集到的多路模拟音频信号首先被传输入声源定位模块,声源定位模块依据多声源定位算法求解出当前外界声场中各个主要声源的空间位置范围;声源定位模块依据音强大小对当前主要声源进行排序,生成一有序声源集;
标定阶段:在一定时间间隔内,以当前有序声源集中排序最靠前的声源作为标定声源,生成用于增强标定声源的语音增强权系数,并标定当前的语音增强权系数,将标定的语音增强权系数传送给语音增强模块进行音频信号合成;
校正阶段:语音增强模块合成后的音频信号依次传输入声纹提取模块及声纹匹配模块,执行声纹匹配流程;若匹配结果显示为匹配成功,将一定时间间隔内的音频信号传输到音频数据缓存区当中,若匹配结果显示为匹配失败,在当前声源集中删除匹配失败的声源,其他声源的次序不发生变动,更新声源集并覆盖旧声源集;
所述音频数据缓存区分别与声纹匹配模块及语义匹配模块通讯连接,当声纹匹配模块匹配结果显示声纹匹配成功时,声纹匹配模块将当前经过语音增强后的音频数据暂存到音频数据缓存区暂存;
所述存储模块包括语义存储库与声纹存储库;
声纹存储库由一个或多个声纹模型组成,每一个声纹模型经过对目标语音训练获得;
语义存储库一方面存储最小语义单元的的音频特征模型,另一方面存储符合语义逻辑的语言模型,用于在语义匹配模块中对实时语音的音频进行识别与翻译;
所述语义匹配模块用于执行语义匹配过程,提取音频数据缓存区发来的语音信号中的语义段,与语义存储库中的现有语义进行匹配,最终输出目标人语义。
2.如权利要求1所述的一种追踪目标人的语义识别装置,其特征在于,所述语义匹配模块包括音频剪切子模块、最小语义单元匹配子模块、语义缓存区以及语义拼接子模块;
音频剪切子模块分别音频数据缓存区及最小语义单元匹配子模块通讯连接,接收来自音频数据缓存区的音频数据,按照静音检测的方法,识别出音频中的静音阶段,并以静音阶段为端点,剪切音频,得到的每个音频段均为最小语义单元音频段;
最小语义单元匹配子模块分别接收来自音频剪切子模块的最小语义单元音频段及语义存储库中存储的最小语义单元模型,参照语义存储库,在最小语义单元音频段和最小语义单元模型之间进行相似度匹配,将最小语义单元音频段翻译为最小语义单元;
语义缓存区分别与置于最小语义匹配子模块及语义拼接子模块通讯连接,将匹配成功的最小语义单元暂存;
语义拼接子模块分别接收来自语义缓存区的最小语义单元以及存储于语义存储库中的语言模型,将匹配出的最小语义单元按照语言习惯组合为合理的目标人语义。
3.如权利要求1所述的一种追踪目标人的语义识别装置,其特征在于,还包括大数据云端,其分别与语义匹配模块及存储模块通讯连接,用于存储语义匹配模块匹配出的目标人语义,对存储模块进行数据更新。
4.一种追踪目标人的语义识别方法,其特征在于,包括以下步骤:
步骤一、通过多个布置在不同位置的麦克风音频接收端采集外界声场中原始语音的音频信号;
步骤二、用声源定位模块获取外界声场中各个主要声源的位置范围,并按照各个主要声源的音强高低将声源排序,组成有序声源集;
步骤三、判断当前声源集是否为空集,当声源集非空时进入步骤四;
步骤四、在一定时间段内,选取当前声源集内排序最靠前的声源最为标定声源,生成用于增强标定声源的音频增强权系数并发送给语音增强模块;
步骤五、语音增强模块按照收到的音频增强权系数,合成来自多个麦克风音频接收端的语音信号;
步骤六、将步骤五合成的语音信号传输至声纹提取模块进行声纹特征提取,提取到的声纹特征被传输至声纹匹配模块,声纹匹配将声纹特征与声纹存储库中预存的声纹模型进行声纹匹配;
步骤七、若步骤六声纹匹配结果显示为匹配失败,在当前声源集中删除匹配失败的声源,其他声源的次序不发生变动,更新声源集并覆盖旧声源集,重复步骤三至步骤六;
步骤八、当步骤六声纹匹配结果显示为匹配成功,将该时间间隔内的音频信号传输到音频数据缓存区当中按照进入次序进行存储;
步骤九、当音频数据缓存区中的音频数据量大于预设阈值时,进行语义匹配流程,将音频数据与语义存储库中的语义模型进行匹配,输出匹配到的语义。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711126940.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种歌曲推荐方法及移动终端
- 下一篇:一种数据库的索引文件建立方法及检索方法