[发明专利]语音识别方法、装置、计算机设备及可读存储介质有效
申请号: | 201711374166.X | 申请日: | 2017-12-19 |
公开(公告)号: | CN107993666B | 公开(公告)日: | 2021-01-29 |
发明(设计)人: | 卫东雷;李行;单衍景 | 申请(专利权)人: | 北京华夏电通科技股份有限公司 |
主分类号: | G10L17/14 | 分类号: | G10L17/14;G10L21/0208;G10L21/0216 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 汤在彦;周晓飞 |
地址: | 100094 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 装置 计算机 设备 可读 存储 介质 | ||
本发明实施例提供了一种语音识别方法、装置、计算机设备及可读存储介质,其中,该方法包括:在一组话筒中有话筒被使用时,采集一组话筒中各个话筒的声纹数据;分别提取各个话筒的声纹数据的特征参数,根据特征参数分别计算相邻两个话筒的声纹数据的差异值,差异值表示相邻两个话筒的声纹数据的相似度;根据大于预设数值的差异值对应的相邻两个话筒的声纹数据的能量大小,在大于预设数值的差异值对应的相邻两个话筒的声纹数据中确定出当前被使用的话筒的声纹数据,将当前被使用的话筒的声纹数据作为识别文本,将所有话筒的声纹数据中除了所述识别文本之外的其他声纹数据确定为重复识别文本,采用识别文本对当前被使用的话筒进行语音识别。
技术领域
本发明涉及语音识别技术领域,特别涉及一种语音识别方法、装置、计算机设备及可读存储介质。
背景技术
随着语音识别技术的成熟,很多情况下需要用到多个人进行语音识别的情况,比如,法庭庭审的场景下,原告和原告律师,以及被告和被告律师,在类似场景下的语音识别会遇到串音的问题。如图1所示,一个话筒组包括话筒1、2、3……N,当用户对着一个话筒2说话时,相邻的比较近的话筒1、3也会接收到相同但声音比较小的声纹,使得语音识别系统除了接收话筒2的声音外还同时接收到了话筒1、3的声音,但是,话筒1、3接收到的声音对于语音识别系统来说是重复的声音,使得语音识别系统中出现了很多重复的识别文本,重复的识别文本会对识别结果造成干扰,从而造成了识别结果的可读性差,极端情况下当识别文本掺杂有重复的识别文本时根本就无法使用,从而极大地阻碍了多人场景下的语音识别的应用。
发明内容
本发明实施例提供了一种语音识别方法,以解决现有技术中语音识别时由于存在重复的识别文本而造成识别结果的可读性差或无法进行语音识别的技术问题。该方法包括:在一组话筒中有话筒被使用时,采集所述一组话筒中各个话筒的声纹数据,其中,所述一组话筒中相邻两个话筒之间的距离小于预设距离;分别提取各个话筒的声纹数据的特征参数,其中,所述特征参数用于表征声纹曲线的趋势特征;根据所述特征参数分别计算相邻两个话筒的声纹数据的差异值,其中,所述差异值表示相邻两个话筒的声纹数据的相似度;根据大于预设数值的差异值对应的相邻两个话筒的声纹数据的能量大小,在大于预设数值的差异值对应的相邻两个话筒的声纹数据中确定出当前被使用的话筒的声纹数据,将当前被使用的话筒的声纹数据作为识别文本,将所有话筒的声纹数据中除了所述识别文本之外的其他声纹数据确定为重复识别文本,采用所述识别文本对当前被使用的话筒进行语音识别。
本发明实施例还提供了一种计算机设备,以解决现有技术中语音识别时由于存在重复的识别文本而造成识别结果的可读性差或无法进行语音识别的技术问题。计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一种语音识别方法。
本发明实施例还提供了一种计算机可读存储介质,以解决现有技术中语音识别时由于存在重复的识别文本而造成识别结果的可读性差或无法进行语音识别的技术问题。所述计算机可读存储介质存储有执行上述任一种语音识别方法的计算机程序。
本发明实施例还提供了一种语音识别装置,以解决现有技术中语音识别时由于存在重复的识别文本而造成识别结果的可读性差或无法进行语音识别的技术问题。该装置包括:声纹采集模块,用于在一组话筒中有话筒被使用时,采集所述一组话筒中各个话筒的声纹数据,其中,所述一组话筒中相邻两个话筒之间的距离小于预设距离;参数提取模块,用于分别提取各个话筒的声纹数据的特征参数,其中,所述特征参数用于表征声纹曲线的趋势特征;差异值计算模块,用于根据所述特征参数分别计算相邻两个话筒的声纹数据的差异值,其中,所述差异值表示相邻两个话筒的声纹数据的相似度;语音识别模块,用于根据大于预设数值的差异值对应的相邻两个话筒的声纹数据的能量大小,在大于预设数值的差异值对应的相邻两个话筒的声纹数据中确定出当前被使用的话筒的声纹数据,将当前被使用的话筒的声纹数据作为识别文本,将所有话筒的声纹数据中除了所述识别文本之外的其他声纹数据确定为重复识别文本,采用所述识别文本对当前被使用的话筒进行语音识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京华夏电通科技股份有限公司,未经北京华夏电通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711374166.X/2.html,转载请声明来源钻瓜专利网。