[发明专利]拾音装置、拾音方法以及程序在审
申请号: | 201880054599.3 | 申请日: | 2018-07-02 |
公开(公告)号: | CN111034222A | 公开(公告)日: | 2020-04-17 |
发明(设计)人: | 广濑良文;中西雅浩;足立祐介 | 申请(专利权)人: | 松下知识产权经营株式会社 |
主分类号: | H04R3/00 | 分类号: | H04R3/00;G10K11/34;H04N7/15;H04R1/40 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 高颖 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 装置 方法 以及 程序 | ||
拾音装置是用于对从成为音源的物体输出的目的音进行拾音的装置,包含控制部,其基于摄像机的图像数据来生成表示物体的位置的物体位置信息,基于麦克风阵列的音响信号来生成表示音源的位置的音源位置信息,对物体位置信息设定与摄像机的拍摄状况相应的权重,基于物体位置信息、物体位置信息的权重和音源位置信息来决定对目的音进行拾音的方向。
技术领域
本公开涉及对目的音进行拾音的拾音装置、拾音方法以及程序。
背景技术
专利文献1公开了用于从记录有一人以上的参加者的谈话的数据中推定是哪个参加者在什么时候发声的推定装置。该推定装置通过将从由麦克风输出的音响信号得到的信息、和从由摄像机输出的影像信号得到的信息进行综合,来算出谈话参加者发声的概率。由此,即使是谈话参加者在没有发声的状况下进行了移动的情况,也能追踪谈话参加者的位置。
现有技术文献
专利文献
专利文献1:JP特许第5215826号公报
发明内容
本公开提供使目的音的拾音精度得以提升的拾音装置、拾音方法、以及程序。
本公开的一个方案的拾音装置用于对从成为音源的物体输出的目的音进行拾音,该拾音装置具有第1输入部、第2输入部和控制部。第1输入部接受由摄像机生成的图像数据的输入。第2输入部接受从麦克风阵列输出的音响信号的输入。控制部决定对目的音进行拾音的方向。控制部包含检测部、推定部、加权部和决定部。检测部基于图像数据来检测物体在水平方向或垂直方向中至少任意一个方向上的位置,输出表示检测出的物体的位置的信息即物体位置信息。推定部基于音响信号来推定音源在水平方向或垂直方向中至少任意一个方向上的位置,输出表示推定出的音源的位置的信息即音源位置信息。加权部对应于摄像机的拍摄状况来设定物体位置信息的权重。决定部基于物体位置信息、物体位置信息的权重和音源位置信息来决定对目的音进行拾音的方向。
这些概括性且特定的方案可以通过系统、方法以及计算机程序和它们的组合来实现。
根据本公开的拾音装置、拾音方法以及程序,由于对应于摄像机的拍摄状况以及麦克风阵列的音接收状况来决定拾音方向,因此目的音的拾音精度得到提升。
附图说明
图1是表示第1实施方式的拾音装置的结构的框图。
图2是表示第1实施方式的控制部的功能的框图。
图3A是用于说明仅使用麦克风阵列的情况下的拾音方向的图。
图3B是用于说明使用麦克风阵列和摄像机的情况下的拾音方向的图。
图4是表示第1实施方式中的拾音方法的流程图。
图5是用于说明脸位置的检测单位的区域的图。
图6是用于说明脸的识别的图。
图7是用于说明脸的概率的图。
图8是表示图像准确度的判定的流程图。
图9是用于说明音源位置的推定的图。
图10是用于说明音源的概率的图。
图11是表示音响准确度的判定的流程图。
图12是表示图像准确度和音响准确度的权重的图。
图13A是表示脸的概率的一例的图。
图13B是表示音源的概率的一例的图。
图13C是表示根据图13A和图13B算出的拾音方向的图。
图14A是表示脸的概率的其他示例的图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于松下知识产权经营株式会社,未经松下知识产权经营株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880054599.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:支承玻璃基板和使用其的层叠基板
- 下一篇:全固态型锂二次电池用正极活性物质