[发明专利]一种声学事件的定位检测方法及装置在审

申请号：	202211454353.X	申请日：	2022-11-21
公开（公告）号：	CN115827913A	公开（公告）日：	2023-03-21
发明（设计）人：	杨吉斌;梅鹏程;曹铁勇;张强;范君怡;黄翔;李志刚	申请（专利权）人：	中国人民解放军陆军工程大学
主分类号：	G06F16/687	分类号：	G06F16/687;G06F16/683;G06N3/08;G06N3/0464
代理公司：	南京纵横知识产权代理有限公司 32224	代理人：	董建林
地址：	210014 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种声学事件定位检测方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种声学事件的定位检测方法及装置，其方法：获取声学事件的多通道音频数据；将声学事件的多通道音频数据输入训练好的定位检测模型，获取估计的声源方位信息和类别信息；其中，所述定位检测模型的训练包括：选取音频数据库，从音频数据库中获取包含声源方位信息和类别信息的多通道音频数据；按照预设比例对音频数据库的多通道音频数据进行划分并生成训练集和验证集；构建声学事件的定位检测模型；所述定位检测模型由特征提取模块、卷积表示学习模块、多级注意力模块、时间卷积网络模块以及估计输出模块级联而成；使用训练集和验证集对构建的定位检测模型进行训练；本发明能够高效的对声学事件的声源方位信息和类别信息进行估计。

技术领域

本发明涉及一种声学事件的定位检测方法及装置，属于声学场景感知技术领域。

背景技术

人类用双耳感知声学环境，可以获取环境中所发生的事件类别、方位信息，从而判断环境具体属性(如是否安全等)。利用声学传感器获取声音，并通过智能感知技术提取声学环境中有关事件的属性和方位，可以为机器人、交通监控等应用提供声学感知能力，弥补因光照、气候等因素变化给光学场景感知带来的不利影响。

传统的声学场景感知技术中，事件(声源)检测(SED)和定位(DOA)是两个不同的分支。声源检测多采用单通道信号输入，利用线性分类器、支持向量机(SVM)等进行检测。声源定位多采用多通道输入，利用不同通道输入信号间存在的相位差，实现对波达角度的估计。由于实际场景中存在着同时出现多种声源的情况，分别进行声源检测和声源定位后再融合，可能存在检测结果和定位结果不匹配的情况，造成感知错误。采用基于深度学习的联合估计方法，如递归神经网络(RNN)、卷积神经网络(CNN)等，可以避免融合处理时的不匹配问题。其中CNN能够获取不同大小感受野中的表示特征，RNN多用于对方位轨迹等时间序列的估计。然而，由于场景中噪声和混响的存在，对特定声源检测和定位的性能仍然不能令人满意。

为改善定位和检测性能，借鉴人耳的听觉感知注意力机理，在处理声学场景输入信号时引入注意力机制，突出所关注的声学事件成分，抑制噪声和混响的影响。然而，已有的采用注意力机制的定位和检测模型，多只在输出层之前通过估计注意力权重实现对输出的掩模加权，无法同时满足对事件方位和类别这两种不同属性的准确关注，对性能的提升仍有待改进。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种声学事件的定位检测方法及装置，在提取的二维卷积深度表示基础上，采用多级注意力机制提取加权深度表示，并通过时间卷积网络模块提取深度表示的上下文特征信息；同时使用声源检测损失函数和方位估计损失函数进行多任务学习，以提升声源检测和定位的性能。

为达到上述目的，本发明是采用下述技术方案实现的：

第一方面，本发明提供了一种声学事件的定位检测方法，包括：

获取声学事件的多通道音频数据；

将声学事件的多通道音频数据输入训练好的定位检测模型，获取估计的声源方位信息和类别信息；

其中，所述定位检测模型的训练包括：

选取音频数据库，从音频数据库中获取包含声源方位信息和类别信息的多通道音频数据；

按照预设比例对音频数据库的多通道音频数据进行划分并生成训练集和验证集；

构建声学事件的定位检测模型；所述定位检测模型由特征提取模块、卷积表示学习模块、多级注意力模块、时间卷积网络模块以及估计输出模块级联而成；

使用训练集和验证集对构建的定位检测模型进行训练。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国人民解放军陆军工程大学，未经中国人民解放军陆军工程大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202211454353.X/2.html，转载请声明来源钻瓜专利网。

上一篇：一种预焙阳极炭块成型机
下一篇：一种表面带遮光剂涂层的气凝胶隔热材料及其制备方法

同类专利

一种音频文件输出系统及方法-202310913242.9
发明人：陈超;吴敏;刘冲 -专利权人：湖南比扬医疗科技有限公司
申请日： 2023-07-24 - 公布日： 2023-10-13 - 主分类号： G06F16/687
摘要：本发明提供一种音频文件输出系统及方法，该系统包括：语言检测模块，用于获取制氧机的当前地理位置，并根据当前地理位置，生成目标语言获取指令；语音存储模块，用于存储不同语言对应的音频文件；MCU模块，用于根据目标语言获取指令，从语音存储模块中获取目标音频文件，并将目标音频文件存储至MCU存储单元中；目标音频文件为采用与当前地理位置匹配的语言录制的音频；音频文件输出模块，用于对MCU存储单元中的目标音频文件进行转换输出。本发明通过获取制氧机所在的地理位置，并从音频文件中获取与地理位置匹配的音频文件，使得制氧机可以根据地理位置来输出不同的音频，提高了制氧机的实用性，降低了制氧机的生产成本。

一种声学事件的定位检测方法及装置-202211454353.X
发明人：杨吉斌;梅鹏程;曹铁勇;张强;范君怡;黄翔;李志刚 -专利权人：中国人民解放军陆军工程大学
申请日： 2022-11-21 - 公布日： 2023-03-21 - 主分类号： G06F16/687
摘要：本发明公开了一种声学事件的定位检测方法及装置，其方法：获取声学事件的多通道音频数据；将声学事件的多通道音频数据输入训练好的定位检测模型，获取估计的声源方位信息和类别信息；其中，所述定位检测模型的训练包括：选取音频数据库，从音频数据库中获取包含声源方位信息和类别信息的多通道音频数据；按照预设比例对音频数据库的多通道音频数据进行划分并生成训练集和验证集；构建声学事件的定位检测模型；所述定位检测模型由特征提取模块、卷积表示学习模块、多级注意力模块、时间卷积网络模块以及估计输出模块级联而成；使用训练集和验证集对构建的定位检测模型进行训练；本发明能够高效的对声学事件的声源方位信息和类别信息进行估计。

任务式智能场景推荐方法、装置、存储介质以及电子设备-202210139859.5
发明人：曾德钧 -专利权人：深圳市云动创想科技有限公司
申请日： 2022-02-16 - 公布日： 2022-10-28 - 主分类号： G06F16/687
摘要：本发明公开了一种任务式智能场景推荐方法、装置、存储介质以及电子设备。该方法包括：获取用户的任务日程，其中，任务日程包括日程内容和日程时间段；根据日程内容确定与日程内容匹配的第一目标场景歌单；根据第一目标场景歌单和日程时间段设置定时任务；当当前时间到达日程时间段的起始时间点时，执行定时任务播放第一目标场景歌单内的目标歌曲。本发明解决了无法根据用户的任务日程定时播放合适的歌曲的技术问题。

一种内容重复歌曲识别方法及相关装置-202210176849.9
发明人：何礼;孔令城 -专利权人：腾讯音乐娱乐科技（深圳）有限公司
申请日： 2022-02-24 - 公布日： 2022-05-27 - 主分类号： G06F16/687
摘要：本申请公开了一种内容重复歌曲识别方法，包括：基于待识别歌曲的多个音频片段进行歌曲匹配，获得目标歌曲；确定多个音频片段中每一音频片段在目标歌曲中的偏移时间位置；其中，偏移时间位置用于表征音频片段与目标歌曲匹配的时间点；计算所有偏移时间位置构成的待识别分布曲线与标准时间分布曲线的差异度；若差异度大于阈值，则将待识别歌曲判定为内容重复歌曲。计算多待识别分布曲线和标准时间分布曲线之前的差异度，若差异度越大，则将待识别歌曲判定为内容重复歌曲，而不是采用模型的方式对内容重复歌曲进行识别，提高了内容重复歌曲的识别效率。本申请还公开了一种服务器以及计算机可读存储介质，具有以上有益效果。

会话记录输出方法和电子设备-202210044928.4
发明人：刘彦泽 -专利权人：维沃移动通信有限公司
申请日： 2022-01-14 - 公布日： 2022-05-13 - 主分类号： G06F16/687
摘要：本申请公开了一种会话记录输出方法和电子设备，属于电子技术领域。具体方案包括：在检测到人声信号的情况下，采集所述人声信号；确定所述人声信号的声源坐标信息；根据所述声源坐标信息与预存储的多个从电子设备的坐标信息的比对结果，确定目标发言者信息；根据所述目标发言者信息和所述人声信号生成会话记录；输出所述会话记录；其中，一个发言者对应一个从电子设备，一个从电子设备的坐标信息关联一个发言者信息。

一种智能交通管理方法、装置、计算机及可读存储介质-202010801029.5
发明人：由长喜 -专利权人：腾讯科技（深圳）有限公司
申请日： 2020-08-11 - 公布日： 2022-02-22 - 主分类号： G06F16/687
摘要：本申请实施例公开了一种智能交通管理方法、装置、计算机及可读存储介质，涉及自动驾驶技术，该方法包括：获取第一交通工具的运行车道区域，基于第一交通工具及运行车道区域建立道路坐标系，获取第二交通工具的预测轨迹；将预测轨迹映射到道路坐标系，根据映射结果建立第二交通工具对应的局部坐标系，根据局部坐标系获取预测轨迹出现在运行车道区域的轨迹交叉概率；根据轨迹交叉概率从第二交通工具中确定引导交通工具；引导交通工具是指引导第一交通工具行驶路线的交通工具。采用本申请，提高了针对当前交通工具选择引导交通工具的决策容错性。

音乐展示方法、装置、电子设备及计算机可读介质-202010739350.5
发明人：郑梓瑄;陈雪 -专利权人：阿里巴巴集团控股有限公司
申请日： 2020-07-28 - 公布日： 2022-02-01 - 主分类号： G06F16/687
摘要：本申请实施例提供了一种音乐展示方法、装置、电子设备及计算机可读介质，涉及互联网技术领域。其中,所述方法包括：获取音乐应用程序所属的终端设备所处的地理位置的信息；确定所述音乐应用程序中与所述地理位置的信息相匹配的待展示音乐；基于所述待展示音乐，生成对应的用于增强现实的虚拟音乐对象；通过增强现实的方式，将所述虚拟音乐对象展示于所述终端设备的图像采集装置采集的真实场景图像中。通过本申请实施例，不仅能够有效提升用户对音乐应用程序中的音乐的互动率，而且还能够增强用户对音乐应用程序中的音乐的代入感。

景区游览路线规划方法、装置和计算机设备-202111187828.9
发明人：张卫平;张浩宇;米小武 -专利权人：环球数科集团有限公司
申请日： 2021-10-12 - 公布日： 2022-01-28 - 主分类号： G06F16/687
摘要：本发明涉及旅游服务技术领域，公开了一种景区游览路线规划方法、装置和计算机设备，其中，方法包括：获取用户选择的游览方案；根据游览方案规划初步游览路线；根据出行日期得到游览区域的区域游览时长；在讲解库中查找路程语音讲解和区域语音讲解，形成景区游览路线；判断用户的当前位置是否在景区游览路线上；若否，则预测用户的目标游览区域；在讲解库中查找并播放行进路线对应的路程语音讲解；实时更新景区游览路线。本发明提供了的景区游览路线规划方法、装置和计算机设备，根据用户的具体情况规划并实时更新景区的游览路线，提供语音讲解以供用户了解景区，使得用户充分了解景区，避免用户多走路、重复走路、重复游览、迷路等情况的发生。

语音播放方法、装置、车辆锁具和车辆-202110902257.6
发明人：范兴龙;罗霄 -专利权人：北京骑胜科技有限公司
申请日： 2021-08-06 - 公布日： 2021-11-05 - 主分类号： G06F16/687
摘要：公开了一种语音播放方法、装置、车辆锁具和车辆。通过获取车辆的定位信息，根据定位信息确定需要播放的语音内容，并控制播放设备播放语音内容。由此，可以在不同位置播放不同的语音内容，以对用户提供周边服务信息，提升用户体验。

基于地理位置的视频搜索方法及系统-201610288439.8
发明人：崔时泓 -专利权人：深圳市至壹科技开发有限公司
申请日： 2016-05-04 - 公布日： 2019-10-18 - 主分类号： G06F16/687
摘要：本发明涉及一种基于地理位置的视频搜索方法及系统，上述方法包括：接收客户端发送的视频搜索请求；从所述视频搜索请求中解析出目标关键字；获取所述目标关键字对应的地理位置；检索与所述地理位置匹配的视频；根据检索到的视频生成视频展示数据并返回给所述客户端。根据上述的方法，在进行视频搜索时，是将用户输入的目标关键字映射为一个或多个地理位置，然后基于地理位置去搜索匹配的视频，提供了一种视频的精确搜索方法，满足视频的精确搜索需求。

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种声学事件的定位检测方法及装置在审

专利文献下载