[发明专利]一种语音信号的修复方法、装置、计算机设备和存储介质在审
申请号: | 202011098772.5 | 申请日: | 2020-10-14 |
公开(公告)号: | CN114373471A | 公开(公告)日: | 2022-04-19 |
发明(设计)人: | 朱林林;齐欣;包飞;封家乐;姚寿柏 | 申请(专利权)人: | 苏宁云计算有限公司 |
主分类号: | G10L21/007 | 分类号: | G10L21/007;G10L21/02;G10L25/18;G10L25/51;G10L25/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210000 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 信号 修复 方法 装置 计算机 设备 存储 介质 | ||
本申请涉及一种语音信号的修复方法、装置、计算机设备和存储介质。方法包括:接收语音信号,将语音信号分割成排序的多个信号片段;对每个信号片段进行失真检测,相应的分为失真信号片段和未失真信号片段,处理失真信号片段;修复失真信号片段,输出失真信号片段对应的恢复信号片段;将未失真信号片段和恢复信号片段按照排序进行拼接,输出修复语音信号。本发明无需人为干预,自动完成修复,将输入的语音信号进行片段分割,而非对整个信号进行统一处理,只对存在失真的信号片段进行恢复,确定其失真类别,选择针对性的恢复模型。恢复模型利用深度学习技术进行建模,且恢复阶段可以将多个信号片段并行恢复。
技术领域
本申请涉及语音信号处理的技术领域,特别是涉及一种语音信号的修复方法、装置、计算机设备和存储介质。
背景技术
语音信号截幅常见于语音识别或其他语音相关应用中,通常是由于说话人距离麦克风过近,导致语音信号幅度过大并超过了录音设备的最大采样上限,此时录音设备对语音信号进行模数转换时,信号的波峰位置或波谷位置有连续的采样点恒等于录音设备的最大采样值,即上述的信号截断现象。如常见的16bit的语音信号,当信号出现截断时,波峰位置的截断信号值为32767或谷值位置的截断信号值为-32768。一旦信号出现截断,大于此采样上限值的部分语音信号将无法被记录而丢失一些信息,影响正常的应用。如,在语音识别系统则表现为导致识别率下降。
目前语音信号截幅失真修复方法主要基于时域上信号的拟合插值,但这些方法存在很多弊端。一方面拟合需要时域信号的信息,比如对每个截幅起点和终点计算导数,如果在起点或终点存在较大的噪声干扰,会导致导数的计算错误进而使修复的信号出现偏差;另一方面每个波峰并不都是规律的类似正弦波的波峰,如果截断的大波峰包含距离较近的相邻两个小波峰,但在截幅后的信号表现为起点是前一个波峰的起点,终点是后一个波峰的终点,拟合插值的方法只能在时域上修复为一个峰。
发明内容
本发明基于上述技术问题,提供一种无需人为干预的情况下完成自动修复的语音信号的修复方法、装置、计算机设备和存储介质。
一种语音信号的修复方法,方法包括:
接收语音信号,将语音信号分割成排序的多个信号片段;
对每个信号片段进行失真检测,相应的分为失真信号片段和未失真信号片段,处理失真信号片段;
修复失真信号片段,输出失真信号片段对应的恢复信号片段;
将未失真信号片段和恢复信号片段按照排序进行拼接,输出修复语音信号。
在一个实施例中,接收语音信号,将语音信号分割成排序的多个信号片段,包括:
接收输入的语音信号,对语音信号进行包络提取;
检测包络的局部最小点,并以该局部最小点为分割点对语音信号进行切分;
排序切分形成的多个信号片段,并按顺序对每个信号片段进行编号;
输出每个信号片段以及对应的编号。
在一个实施例中,对每个信号片段进行失真检测,相应的分为失真信号片段和未失真信号片段,处理失真信号片段,包括:
检测每个信号片段的所有采样点的值,确定每个信号片段是否失真;
根据检测结果,将信号片段分为失真信号片段和未失真信号片段;
提取失真信号片段的失真特征,获取相应的失真类型。
在一个实施例中,检测每个信号片段的所有采样点的值,进一步包括:
检测信号片段是否存在连续的截幅极值。
在一个实施例中,在提取失真信号片段的失真特征之前,还包括,对包络进行样条插值,补全截幅部分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏宁云计算有限公司,未经苏宁云计算有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011098772.5/2.html,转载请声明来源钻瓜专利网。