[发明专利]一种追踪目标人的语义识别装置及识别方法有效

专利信息
申请号: 201711126940.5 申请日: 2017-11-15
公开(公告)号: CN107862060B 公开(公告)日: 2021-03-23
发明(设计)人: 王建华;王新群;赵洁;陈宇彬;何珺;丁录国;周乃鹏 申请(专利权)人: 吉林大学
主分类号: G06F40/30 分类号: G06F40/30;G06F16/683;G10L17/02
代理公司: 长春吉大专利代理有限责任公司 22201 代理人: 杜森垚
地址: 130012 吉*** 国省代码: 吉林;22
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种追踪目标人的语义识别装置,包括麦克风阵列模块、说话人辨识模块、存储模块、音频数据缓存区以及语义匹配模块;麦克风阵列模块采集来自外界声场的多路音频信号并进行语音增强处理,处理后的音频信号只增强了外界声场中特定位置声源的音频信号;说话人辨识模块提取麦克风阵列模块采集的声纹特征,与目标人的声纹模型进行匹配,判断通过麦克风阵列模块增强处理后的特定声源信号是否来自于目标人;语义匹配模块识别音频中的语义信息并以一定形式输出。本发明配置了声纹提取模块和声源定位模块,可以在噪杂的外界声场中定位到目标人的声源位置,并通过音频数据缓存区和语义匹配模块将目标人的语音信号转换为目标人语义。
搜索关键词: 一种 追踪 目标 语义 识别 装置 方法
【主权项】:
一种追踪目标人的语义识别装置,其特征在于,包括麦克风阵列模块、说话人辨识模块、存储模块、音频数据缓存区以及语义匹配模块;所述麦克风阵列模块包括语音增强模块以及麦克风矩阵;麦克风矩阵由多个麦克风音频接收端组成,多个麦克风音频接收端设置在外界声场中不同的特定空间位置,采集外界声场中的多路模拟音频信号;语音增强模块用于将麦克风矩阵采集的多路模拟音频信号按照语音增强权系数进行加权合成,加权合成后的音频信号增强了外界声场中特定位置声源的模拟音频信号;所述说话人辨识模块包括声纹提取模块、声纹匹配模块以及声源定位模块:声纹提取模块与所述语音增强模块通讯连接,其接收语音增强模块合成的音频信号,并根据声纹提取算法,获取音频信号中表征特定人语音特征的声纹特征;声纹匹配模块分别与声纹提取模块以及存储模块的声纹存储库通讯连接,分别接收声纹存储库中的声纹模型以及声纹提取模块提取到的声纹特征信息,将声纹模型与声纹特征信息进行相似度匹配,并将相似度匹配结果反馈给声源定位模块;声源定位模块分别与声纹匹配模块及麦克风阵列模块通讯连接,其接收来自麦克风阵列模块的多路模拟音频信号,以此为依据获知外界声场中不同声源的位置范围,对于每个位置范围生成一组语音增强权系数,使得语音增强模块按照语音增强权系数合成多路音频后,外界声场中特定位置范围的音频信号被增强;所述音频数据缓存区分别与声纹匹配模块及语义匹配模块通讯连接,当声纹匹配模块匹配结果显示声纹匹配成功时,声纹匹配模块将当前经过语音增强后的音频数据暂存到音频数据缓存区暂存;所述存储模块包括语义存储库与声纹存储库;声纹存储库由一个或多个声纹模型组成,每一个声纹模型经过对目标语音训练获得;语义存储库一方面存储最小语义单元的的音频特征模型,另一方面存储符合语义逻辑的语言模型,用于在语义匹配模块中对实时语音的音频进行识别与翻译;所述语义匹配模块用于执行语义匹配过程,提取音频数据缓存区发来的语音信号中的语义段,与语义存储库中的现有语义进行匹配,最终输出目标人语义。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201711126940.5/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top