[发明专利]一种语音信号的修复方法、装置、计算机设备和存储介质在审

申请号：	202011098772.5	申请日：	2020-10-14
公开（公告）号：	CN114373471A	公开（公告）日：	2022-04-19
发明（设计）人：	朱林林;齐欣;包飞;封家乐;姚寿柏	申请（专利权）人：	苏宁云计算有限公司
主分类号：	G10L21/007	分类号：	G10L21/007;G10L21/02;G10L25/18;G10L25/51;G10L25/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	210000 江苏省南***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音信号修复方法装置计算机设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及一种语音信号的修复方法、装置、计算机设备和存储介质。方法包括：接收语音信号，将语音信号分割成排序的多个信号片段；对每个信号片段进行失真检测，相应的分为失真信号片段和未失真信号片段，处理失真信号片段；修复失真信号片段，输出失真信号片段对应的恢复信号片段；将未失真信号片段和恢复信号片段按照排序进行拼接，输出修复语音信号。本发明无需人为干预，自动完成修复，将输入的语音信号进行片段分割，而非对整个信号进行统一处理，只对存在失真的信号片段进行恢复，确定其失真类别，选择针对性的恢复模型。恢复模型利用深度学习技术进行建模，且恢复阶段可以将多个信号片段并行恢复。

技术领域

本申请涉及语音信号处理的技术领域，特别是涉及一种语音信号的修复方法、装置、计算机设备和存储介质。

背景技术

语音信号截幅常见于语音识别或其他语音相关应用中，通常是由于说话人距离麦克风过近，导致语音信号幅度过大并超过了录音设备的最大采样上限，此时录音设备对语音信号进行模数转换时，信号的波峰位置或波谷位置有连续的采样点恒等于录音设备的最大采样值，即上述的信号截断现象。如常见的16bit的语音信号，当信号出现截断时，波峰位置的截断信号值为32767或谷值位置的截断信号值为-32768。一旦信号出现截断，大于此采样上限值的部分语音信号将无法被记录而丢失一些信息，影响正常的应用。如，在语音识别系统则表现为导致识别率下降。

目前语音信号截幅失真修复方法主要基于时域上信号的拟合插值，但这些方法存在很多弊端。一方面拟合需要时域信号的信息，比如对每个截幅起点和终点计算导数，如果在起点或终点存在较大的噪声干扰，会导致导数的计算错误进而使修复的信号出现偏差；另一方面每个波峰并不都是规律的类似正弦波的波峰，如果截断的大波峰包含距离较近的相邻两个小波峰，但在截幅后的信号表现为起点是前一个波峰的起点，终点是后一个波峰的终点，拟合插值的方法只能在时域上修复为一个峰。

发明内容

本发明基于上述技术问题，提供一种无需人为干预的情况下完成自动修复的语音信号的修复方法、装置、计算机设备和存储介质。

一种语音信号的修复方法，方法包括：

接收语音信号，将语音信号分割成排序的多个信号片段；

对每个信号片段进行失真检测，相应的分为失真信号片段和未失真信号片段，处理失真信号片段；

修复失真信号片段，输出失真信号片段对应的恢复信号片段；

将未失真信号片段和恢复信号片段按照排序进行拼接，输出修复语音信号。

在一个实施例中，接收语音信号，将语音信号分割成排序的多个信号片段，包括：

接收输入的语音信号，对语音信号进行包络提取；

检测包络的局部最小点，并以该局部最小点为分割点对语音信号进行切分；

排序切分形成的多个信号片段，并按顺序对每个信号片段进行编号；

输出每个信号片段以及对应的编号。