[发明专利]基于噪声抑制的语音检测方法、装置、存储介质以及终端在审

专利信息
申请号: 202010278039.5 申请日: 2020-04-10
公开(公告)号: CN113539300A 公开(公告)日: 2021-10-22
发明(设计)人: 汤志淼 申请(专利权)人: 宇龙计算机通信科技(深圳)有限公司
主分类号: G10L25/87 分类号: G10L25/87;G10L21/0216
代理公司: 北京恒博知识产权代理有限公司 11528 代理人: 张晓芳
地址: 518055 广东省深圳市*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要: 本申请公开了一种基于噪声抑制的语音检测方法、装置、存储介质以及终端,涉及语音检测领域。获取语音信号,提取语音信号中的短时能频值序列;判断语音信号中的背景噪声是否发生改变,若背景噪声发生改变,则重新计算背景噪声;其中,重新计算背景噪声包括:对语音信号进行建模,并获取语音信号的语音噪声概率;根据语音噪声概率得到语音信号的噪声估计值;对噪声估计值基于最小均方误差准则进行最优估计,并输出噪声抑制信号;根据噪声抑制信号更新短时能频值序列,以及输出语音端点检测结果。当检测到语音信号中的背景噪声发生改变后,可以通过语音信号进行相关处理,输出噪声抑制信号,有效提高了检测语音端点的精确率。
搜索关键词: 基于 噪声 抑制 语音 检测 方法 装置 存储 介质 以及 终端
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宇龙计算机通信科技(深圳)有限公司,未经宇龙计算机通信科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/202010278039.5/,转载请声明来源钻瓜专利网。

同类专利
  • 一种噪声事件检测方法和装置-202311015718.3
  • 黄国锋;陈庆春;廖彤;刘勇;刘军;陈耿林;陈多宏;吴科毅;伍世丰;周棣锋;周炳朋;郑蕾;张承云;林子锋 - 广东省生态环境监测中心;广州大学
  • 2023-08-11 - 2023-10-20 - G10L25/87
  • 本发明公开了一种噪声事件检测方法和装置,方法包括:获取环境音频数据,若环境音频数据的声压低于阈值,提取环境音频数据的声学特征数据输入到噪声事件检测网络,生成帧级时间预测结果和事件类别预测结果;噪声事件检测网络通过训练数据对初始噪声事件检测网络训练而来;训练数据由标签噪声数据构造而来;初始噪声事件检测网络的编码器网络由无标签噪声数据对初始编码器网络训练而来;对声学特征数据进行筛选和异常点修正后,进行起止时间点的检测,并生成起止时间标注,生成噪声事件检测结果,以实现通过无标签噪声数据训练初始噪声事件检测网络的编码网络,并通过标签数据对噪声事件检测网络进行联合优化,提升噪声事件检测的性能和效果。
  • 语音活动检测模型的训练方法、语音活动检测方法及装置-202311049011.4
  • 张结;王景渊;周叶萍;刘沛奇 - 中国科学技术大学
  • 2023-08-18 - 2023-10-17 - G10L25/87
  • 本公开提供了一种语音活动检测模型的训练方法、语音活动检测方法及装置。该训练方法包括获取训练集,其中,训练集包括多个语音训练样本;对语音训练样本进行转换处理,得到目标对数梅尔谱特征;利用门控卷积层和最大池化层处理目标对数梅尔谱特征,得到编码结果,卷积编码模块包括门控卷积层、最大池化层和第一全连接层;利用第一全连接层处理编码结果,得到预测标签,预测标签表征语音训练样本中是否存在语音信号;利用残差解码模块处理编码结果,得到预测结果,初始语音检测模型包括卷积编码模块和残差解码模块;将预测标签和预测结果输入损失函数,输出损失结果;根据损失结果迭代地调整初始语音检测模型的网络参数,得到经训练的语音活动检测模型。
  • 语音信号处理方法、装置及车机系统-202310986882.2
  • 吴化;邓建凯;邵雅婷 - 思必驰科技股份有限公司
  • 2023-08-07 - 2023-10-10 - G10L25/87
  • 本发明公开一种语音信号处理方法,应用于车机系统,其包括:获取车机系统所处的车载模式,并根据车机系统所处的车载模式通过前端信号处理引擎获取目标语音信号,其中,目标语音信号包括用于语音识别的第一目标语音信号和用于语音活动检测的第二目标语音信号;对第二目标语音信号进行语音活动检测,同时将第一目标语音信号缓存;根据对第二目标语音信号的语音活动检测结果和缓存的第一目标语音信号,确定出用于语音识别的最终语音信号输出。本发明实施例的方法通过基于车载模式的目标语音信号筛选和基于vad引擎的语音信号处理,实现了对非目标音区的音频信号的双重抑制,提高了对非目标音区的音频的抑制效果和语音唤醒识别的准确率。
  • 自适应参数投票机制的语音端点检测方法及系统-202310112852.9
  • 雷静;贺子宸;刘小平;陶晶;张倩 - 兴业银行股份有限公司;兴业数字金融服务(上海)股份有限公司
  • 2023-02-14 - 2023-09-29 - G10L25/87
  • 本发明提供了一种自适应参数投票机制的语音端点检测方法及系统,包括:采集语音信号,并对语音信号进行预处理得到语音帧信号;对语音帧信号进行相邻帧平滑和去除野点处理,得到平滑后的特征参数;计算语音帧信号的各个特征参数对应的初始判决阈值;根据初始判决阈值,选择投票判决机制,进而判断当前语音帧信号是否为噪声帧,若是,则通过实时跟踪噪声变化,实现自适应更新判决阈值,并最终判定语音端点;若否,则忽略该帧,进入下一帧。本发明同时提取四种语音信号不同维度的特征参数,可以有效弥补特征阈值端点检测算法在低信噪比多种噪声环境下表现的不稳定性,由此更好的适应办公环境下噪声的多样性,提高语音端点检测的正确率。
  • 一种基于网络直播助讲机器人的语音互动方法及系统-202310563251.X
  • 高明月;米海鹏 - 清华大学
  • 2023-05-18 - 2023-09-15 - G10L25/87
  • 本发明提供一种基于网络直播助讲机器人的语音互动方法及系统,包括:获取用户的语音信息,通过预设的气口判断模型判断是否有气口存在,生成判断结果;根据判断结果确定有气口存在,则对所述语音信息通过语音识别模型进行语义理解,生成理解结果;根据所述理解结果在预设的语料库对应类别中随机选择回复内容;将所述回复内容通过语音转换模型生成语音回复信号,通过扬声器对语音回复信号进行语音播放。本发明解决了现有网络直播难以与观众形成互动、缺乏吸引力的问题。
  • 一种压缩音频的静默检测方法及装置-202310350610.3
  • 王恒;郭永乐;赵群英 - 广州市迪士普音响科技有限公司
  • 2023-04-03 - 2023-09-12 - G10L25/87
  • 本发明公开一种压缩音频的静默检测方法及装置,所述方法包括:获取经过哈夫曼编码算法处理且数据帧长度固定的压缩音频数据;持续监测所述压缩音频数据单位时间内的数据量,若所述单位时间内的数据量小于预设数据阈值,统计一段时间窗内所述压缩音频数据中全部单字节数据值的出现概率;根据所述全部单字节数据值的出现概率,统计有效数据值出现的概率总和;出现连续多次所述有效数据值出现的概率总和大于占比阈值的情况,判断所述压缩音频数据为静默音频。采用本发明,检测静默状态时不需要解码基带音频数据,大大减少了运算量、检测设备的内存储存空间要求。
  • 语音端点检测的方法、装置、设备和存储介质-202110690082.7
  • 岑吴镕;李骊 - 北京华捷艾米科技有限公司
  • 2021-06-22 - 2023-09-01 - G10L25/87
  • 本申请提供一种语音端点检测的方法、装置、设备和存储介质,方法包括,将待检测音频划分为多个音频帧;计算每一个音频帧的能量参数;在其中由小至大的选取预设比例的能量参数,计算选取的能量参数的平均值,得到基准阈值;检测每个帧组合(指每两个连续的音频帧)是否符合起始条件(帧组合中每个音频帧的能量参数均大于N倍的基准阈值)或终止条件(帧组合中每个音频帧的能量参数均小于M倍的基准阈值);标记符合起始条件的帧组合之前一个音频帧为语音起始帧,标记符合终止条件的帧组合之中第二个音频帧为语音终止帧。本方案能够针对不同音频动态确定语音端点检测所用的基准阈值,针对不同情况下采集到的音频进行检测时均有较高的准确度。
  • 语音处理方法、装置、存储介质以及电子设备-202010465071.4
  • 杨惠;谭星;梁光 - 北京大米科技有限公司
  • 2020-05-27 - 2023-08-25 - G10L25/87
  • 本申请实施例公开了一种语音处理方法、装置、存储介质以及电子设备。所述方法包括:对语音数据进行分帧处理得到N个语音帧,其中,N为大于1的整数,确定所述语音帧的前面M个语音帧和后面M个语音帧得到2M+1个语音帧,其中,M为大于或等于1的整数,提取所述2M+1个语音帧的语音特征信息,将所述语音特征信息输入至长短期记忆神经网络模型LSTM进行运算处理得到所述语音帧的语音识别结果,其中,所述语音识别结果包括静音帧和非静音帧。本申请通过将语音数据进行分帧处理,提取2M+1个语音帧的语音特征信息,再将该语音特征信息输入至LSTM进行处理,识别静音帧和非静音帧,提高了语音识别中区分有效语音和无效语音的准确度,进一步提高了语音识别的准确率。
  • 基于上下文信息确定接收语音输入的持续时间的电子设备和系统-201880048401.0
  • 辛晧先;李哲敏;李承烈;诸成民 - 三星电子株式会社
  • 2018-07-19 - 2023-08-25 - G10L25/87
  • 电子设备包括:扬声器;麦克风;通信电路;可操作地连接到扬声器、麦克风和通信电路的处理器;以及可操作地连接到处理器的存储器。存储器存储有指令,该指令在被执行时使处理器:接收激活智能系统的用户输入;至少部分地基于电子设备的状态来确定通过麦克风接收用户话语的持续时间的至少一部分;在接收到用户输入之后通过麦克风接收第一用户话语;通过通信电路将与第一用户话语相关联的第一数据发送到外部服务器;以及通过通信电路从外部服务器接收第一响应。第一响应是至少部分地基于第一数据而生成的。
  • 一种语音端点检测方法、装置、设备及存储介质-202310513866.1
  • 陈洁茹;田定书;万根顺;张景宣;付中华;高建清;潘嘉;刘聪;胡国平 - 科大讯飞股份有限公司
  • 2023-05-08 - 2023-08-11 - G10L25/87
  • 本发明提供了一种语音端点检测方法、装置、设备及存储介质,语音端点检测方法包括:获取目标数据,目标数据包括目标音频数据;将目标数据输入预先训练得到的音频帧分类模型,得到目标音频数据的音频帧的分类结果,其中,音频帧分类模型以带有若干噪声类别中的一个或多个类别的噪声的第一音频数据为训练样本,以第一音频数据的音频帧在多个维度下的真实类别为样本标签训练得到,多个维度包括语音维度和若干噪声类别分别对应的噪声维度;根据目标音频数据的音频帧的分类结果确定语音端点。本发明提供的语音端点检测方法能够检测出准确的语音端点。
  • 一种说话人转换点检测方法、装置、设备及存储介质-202110745056.X
  • 董林昊;范志赟;马泽君 - 北京有竹居网络技术有限公司
  • 2021-06-30 - 2023-08-08 - G10L25/87
  • 本申请公开了一种说话人转换点检测方法、装置、设备及存储介质,该方法包括:首先获取待检测的目标语音数据;并从其中提取表征其声学信息的声学特征,然后对该声学特征进行编码处理,得到目标语音数据的语音帧级别的说话人表征向量,接着,基于CIF对目标语音数据的语音帧级别的说话人表征向量进行整合发放,得到目标语音数据中以说话人转换点为边界的说话人表征序列,进而可以根据该说话人表征序列,确定说话人转换点对应的时间戳。可见,由于本申请是模拟人脑对信息处理的方式,利用CIF对目标语音数据中逐帧累积的说话人表征向量进行充分整合发放,从而能够有效提高交互类型的目标语音数据中说话人转换点检测结果的准确性。
  • 长语音端点检测方法与装置、存储介质、电子设备-202010640716.3
  • 黄洪运;李红岩;刘岩 - 泰康保险集团股份有限公司
  • 2020-07-06 - 2023-07-18 - G10L25/87
  • 本公开属于语音检测技术领域,涉及一种长语音端点检测方法及装置、计算机可读存储介质、电子设备。该方法包括:获取待检测长语音的语音信号,并对语音信号进行分窗处理得到检测窗;在检测窗中确定一采样点为起始检测点,并计算起始检测点的起始能量比率;根据起始检测点确定另一采样点为终止检测点,并计算终止检测点的终止能量比率;根据起始能量比率确定起始检测点为待检测长语音的语音起始点,并根据终止能量比率确定终止检测点为待检测长语音的语音终止点。本公开减少对短促语音片段的孤立,使得端点检测更连贯,进一步减少了后续合并处理工作带来的复杂度,避免了漏掉有效语音片段,也使得端点检测的准确度更高。
  • 故事读者阅读中断的算法确定-202211622575.8
  • 柴塔尼亚·加尔普雷;埃文·菲舍尔;埃里克·刘;杨鹏;艾米丽·侯;维多利亚·方 - 谷歌有限责任公司
  • 2018-08-27 - 2023-07-04 - G10L25/87
  • 本公开涉及故事读者阅读中断的算法确定。提供了用于增强计算设备检测用户何时已经中断阅读文本源的能力的技术。一种示例方法包括:接收包括与文本源相关联的口头字词的音频数据,其中,该音频数据包括第一持续时间和第二持续时间;比较音频数据与文本源的数据,其中音频数据的第一持续时间与文本源的数据相对应;由处理设备计算音频数据的第二持续时间与文本源的数据之间的对应度量;以及响应于确定对应度量满足阈值,传送停止将音频数据与文本源的数据进行比较的信号。
  • 故事读者阅读中断的算法确定-202211637017.9
  • 柴塔尼亚·加尔普雷;埃文·菲舍尔;埃里克·刘;杨鹏;艾米丽·侯;维多利亚·方 - 谷歌有限责任公司
  • 2018-08-27 - 2023-07-04 - G10L25/87
  • 本公开涉及故事读者阅读中断的算法确定。提供了用于增强计算设备检测用户何时已经中断阅读文本源的能力的技术。一种示例方法包括:接收包括与文本源相关联的口头字词的音频数据,其中,该音频数据包括第一持续时间和第二持续时间;比较音频数据与文本源的数据,其中音频数据的第一持续时间与文本源的数据相对应;由处理设备计算音频数据的第二持续时间与文本源的数据之间的对应度量;以及响应于确定对应度量满足阈值,传送停止将音频数据与文本源的数据进行比较的信号。
  • 故事读者阅读中断的算法确定-202211624502.2
  • 柴塔尼亚·加尔普雷;埃文·菲舍尔;埃里克·刘;杨鹏;艾米丽·侯;维多利亚·方 - 谷歌有限责任公司
  • 2018-08-27 - 2023-07-04 - G10L25/87
  • 本公开涉及故事读者阅读中断的算法确定。提供了用于增强计算设备检测用户何时已经中断阅读文本源的能力的技术。一种示例方法包括:接收包括与文本源相关联的口头字词的音频数据,其中,该音频数据包括第一持续时间和第二持续时间;比较音频数据与文本源的数据,其中音频数据的第一持续时间与文本源的数据相对应;由处理设备计算音频数据的第二持续时间与文本源的数据之间的对应度量;以及响应于确定对应度量满足阈值,传送停止将音频数据与文本源的数据进行比较的信号。
  • 基于深度学习的语音端点检测方法、装置和计算机设备-202310146818.3
  • 李鹏;黄文琦;林全郴;冯勤宇;梁凌宇;习伟 - 南方电网数字电网研究院有限公司
  • 2023-02-22 - 2023-06-27 - G10L25/87
  • 本申请涉及一种基于深度学习的语音端点检测方法、装置、计算机设备、存储介质和计算机程序产品。方法包括:获取待识别音频信号中各个音帧对应的音频数据;对各个音帧对应的音频数据进行听觉特征提取,得到各音帧对应的音频听觉特征;对各音帧对应的音频听觉特征进行编码特征提取,得到各音帧对应的音频编码特征;对各音帧对应的音频编码特征进行分类处理,得到各音帧对应的音帧类别概率向量;音帧类别概率向量表征相应的音帧为语音帧的概率信息和音帧为非语音帧的概率信息;根据各音帧对应的音帧类别概率向量,确定待识别音频信号中的语音端点。采用本方法能够准确地识别语音段的端点位置。
  • 生物验证的语音识别方法、装置、计算机设备和存储介质-202310303316.7
  • 王心月;宁博;黎明欣 - 中国工商银行股份有限公司
  • 2023-03-27 - 2023-06-13 - G10L25/87
  • 本申请涉及一种生物验证的语音识别方法、装置、计算机设备、存储介质和计算机程序产品,涉及生物识别技术领域。所述方法包括:将用户在生物验证时提供的待识别语音切分为多个待识别语音段后,确定语音识别模型库中与首个语音段的语种匹配的第一语音识别模型;利用第一语音识别模型依次对多个待识别语音段进行语音识别;当第一语音识别模型对一语音段识别失败时,确定语音识别模型库中与该一语音段的语种匹配的第二语音识别模型;若第二语音识别模型与第一语音识别模型不同,则使用语音识别模型库中全体语音识别模型对未识别语音段进行语音识别。采用本方法能够满足多语种生物验证时的语音识别需求。
  • 一种VDR语音端点检测方法-202211635844.4
  • 张维维;刘鑫;杜晗;成皓;王扬 - 大连海事大学
  • 2022-12-19 - 2023-06-09 - G10L25/87
  • 本发明公开了一种VDR语音端点检测方法,包括:提取音频信号的特征信息,分别获取上述四个特征信息的一阶差分和二阶差分;将零填充后的特征图输入带有注意力机制的残差网络,提取特征图的复杂抽象特征;计算初步输出值为0和1对应的特征质心;搜索语音端点检测初步输出中持续时间为100ms以下的突变,并将其定义为短时突变,计算突变部分特征质心分别与整个音频文件的0和1两类判断结果的特征质心相似度;通过短时突变部分的特征质心相似度估计结果对VDR语音端点检测输出值进行更新,得到最终VDR语音端点检测的输出值。该方法避免短时端点检测突变,进而准确定位出VDR音频信号中语音位置。
  • 语音活性检测方法、装置、设备及存储介质-202310163313.8
  • 曾亮;涂贤玲 - 北京声智科技有限公司
  • 2023-02-15 - 2023-05-30 - G10L25/87
  • 本申请公开了一种语音活性检测方法、装置、设备及存储介质,属于人工智能技术领域。该方法包括:基于采集的第一用户第一语音数据,获取第一用户的声学特征模板以及第一用户的对话意图;响应于第一用户的对话意图指示发生语音打断事件,基于当前的语音检测状态,调整语音检测模型的语音检测参数;其中,语音打断事件是指用户讲话被打断;将第一用户的声学特征模板和调整后的语音检测参数存储至数据库;在应用时,基于采集的第二用户的第二语音数据和数据库,确认与第二用户匹配的语音检测模型的语音检测参数;基于获取到的语音检测参数,通过语音检测模型对第二用户的后续语音数据进行语音活性检测。本申请能够降低设备打断用户讲话的发生概率。
  • 一种语音端点检测方法及装置-202211730408.5
  • 方思敏 - 安徽聆思智能科技有限公司
  • 2022-12-30 - 2023-05-30 - G10L25/87
  • 本申请提供了一种语音端点检测方法及装置,涉及语音检测技术领域。在本申请中,先将音频数据进行分帧,得到多个音频帧,然后将多个音频帧分别作为目标音频帧,针对目标音频帧,将目标音频帧与目标音频帧的下一个音频帧的相关值作为目标音频帧的相关值,其中相关值为两个音频帧的周期性相关度所对应的值,最后根据多个音频帧所对应的相关值进行语音端点检测。这样,由于语音数据之间相关度高,通过根据当前音频帧与下一音频帧的相关值进行语音端点检测,可以提高语音端点检测的准确率。
  • 一种基于麦克风阵列的宽带DOA估计方法-202210240262.X
  • 黄际彦;慕方方;周杨;李汉君;王珍;马敏 - 电子科技大学
  • 2022-03-10 - 2023-05-26 - G10L25/87
  • 本发明属于阵列信号处理领域,具体涉及一种基于麦克风阵列的宽带DOA估计方法。本发明先利用语音端点检测算法对麦克风阵列接收到的语音信号进行预处理,将有话段进行提取,之后只对有话段进行处理可以节约处理时间,使用相关法进行语音端点检测,然后,将预处理后的时域信号转化到频域上,并且根据设定阈值,选择相应的频率,之后在选择出的频率中利用窄带DOA估计技术求当前频率下麦克风阵列对应的输出信号,寻找输出信号峰值对应的DOA,将每个频率下的DOA进行统计并进行聚类,最终聚类结果即DOA估计出来的结果。
  • 基于自注意力机制的语音活动检测方法、装置及存储介质-202010117497.0
  • 方泽煌;康元勋 - 厦门亿联网络技术股份有限公司
  • 2020-02-25 - 2023-05-23 - G10L25/87
  • 本发明公开了一种基于自注意力机制的语音活动检测方法,包括:采集待处理语音,对待处理语音进行语音合成处理,得到待检测语音;对待检测语音进行特征提取,得到待检测语音的多维特征;建立基于自注意力机制的RNN模型,并将多维特征输入至RNN模型;对RNN模型进行训练,得到语音检测模型;语音检测模型根据多维特征计算待检测语音的状态值,并根据状态值判断待检测语音的类别。本发明提供的一种基于自注意力机制的语音活动检测方法及装置,能够有效提高语音活动检测的效果,且能够有效提高语音活动检测的稳定性和可靠性。
  • 一种基于文本感知的语音端点检测方法和系统-202310047513.7
  • 李琳;王捷;洪青阳 - 厦门大学
  • 2023-01-31 - 2023-05-09 - G10L25/87
  • 本申请提出一种基于文本感知的语音端点检测方法和系统,方法包括步骤:S1,获取原始音频,提取原始音频的浅层声学特征和文本特征;S2,将浅层声学特征和文本特征进行自适应加权融合,获得融合音频特征;S3,将融合音频特征进行上下文编码,获得时序特征;S4,对时序特征进行二分类预测,获得语音帧概率和非语音帧概率;S5,对二分类预测的结果进行判决,并将原始音频的各帧判决结果拼接,获得语音端点检测结果。该方法能够有效利用音频中的文本信息,通过融合浅层声学特征和文本特征,可以提高后端语音端点检测模型的准确度和稳定性。在缺乏目标域训练数据的情况下,借助预训练的文本特征提取子网络能够保证语音端点检测模型的鲁棒性。
  • 针对实时语音流的咳嗽及打喷嚏识别方法-202010213863.2
  • 孙宝石 - 苏州数言信息技术有限公司
  • 2020-03-24 - 2023-04-14 - G10L25/87
  • 本发明公开了一种针对实时语音流的双域特征化及队列加速的咳嗽及打喷嚏识别方法。本发明一种针对实时语音流的双域特征化及队列加速的咳嗽及打喷嚏识别方法,包括:连续采集语音信号,将采集的语音数据进行分帧;对语音数据帧进行端点检测,以定位候选目标语音的起点帧;端点检测采用三门限法;同时采用时域特征和频域特征,并且针对咳嗽和打喷嚏的特点选取特征值;特征向量队列加速处理;三种工作模式灵活切换等,并形成一整套运行和持续优化流程。本发明的有益效果:1.识别率高:本方法包括多处关键创新点,并且针对咳嗽和打喷嚏进行了特别处理,比现有其他方法识别率明显提升。
  • 语音识别方法、装置、设备及存储介质-202211691254.3
  • 谭奇力;任展 - 达闼科技(北京)有限公司
  • 2022-12-27 - 2023-04-07 - G10L25/87
  • 本公开涉及一种语音识别方法、装置、设备及存储介质,以提高资源利用率。该方法应用于云端服务器,云端服务器安装有语音活动检测组件,该方法包括:响应于接收到机器人确定的音频流,通过语音活动检测组件确定音频流的开始标识和/或结束标识;调用自动语音识别程序,以获得自动语音识别程序基于开始标识和/或结束标识对音频流进行识别得到的语音识别结果;将语音识别结果发送至机器人。
  • 语音检测方法、设备及计算机可读存储介质-202211493538.1
  • 马冬梅 - 歌尔科技有限公司
  • 2022-11-25 - 2023-03-31 - G10L25/87
  • 本发明公开了一种语音检测方法、设备及计算机可读存储介质,方法包括:在语音检测环境中采集环境噪声数据和语音数据;提取出所述环境噪声数据中的第一时域特征参数,以及提取出所述语音数据中的第二时域特征参数;根据所述第一时域特征参数确定第一语音检测阈值;根据所述第一语音检测阈值和预设的第一语音端点值建立各个阈值区间,根据所述第二时域特征参数在各所述阈值区间内的分布情况对所述第一语音端点值进行调整,得到第二语音检测阈值,以基于第一语音检测阈值和第二语音检测阈值进行语音检测。本发明实现了一种根据用户所处的环境对语音检测阈值进行调整的方案,提高了语音检测的准确度。
  • 语音端点检测模型构建方法、装置、计算机设备-202211444623.9
  • 巴莉芳;王启腾;徐伟;林昊;张文锋;林华春 - 招联消费金融有限公司
  • 2022-11-18 - 2023-03-28 - G10L25/87
  • 本申请涉及一种语音端点检测模型构建方法、装置、计算机设备和存储介质。所述方法包括:获取带噪声的训练语音信号的幅度谱、对应的先验信噪比参考值,根据幅度谱与对应的先验信噪比参考值确定第一子模型对应的第一损失,根据第一损失调整第一子模型的模型参数确定目标第一子模型,根据带噪声的训练语音信号的频率特征信息和对应的语音段参考值以及非语音段参考值得到第二子模型对应的第二损失,基于第二损失调整第二子模型的模型参数,得到目标第二子模型,基于目标第一子模型和目标第二子模型融合得到目标语音端点检测模型。采用本方法所构建的语音端点检测模型能够提高语音端点检测的准确性。
  • 语音传输方法、可读介质和电子设备-202111112841.8
  • 郑文文;雷磊;陈瑞 - 华为技术有限公司
  • 2021-09-18 - 2023-03-24 - G10L25/87
  • 本申请涉及语音处理技术领域,公开了一种语音传输方法、可读介质和电子设备。本申请的语音传输方法,包括:在网络覆盖弱的情况下,电子设备可以通过主动裁剪连续多帧数据帧中的静音帧,从而避免丢失连续多帧数据帧中的包含语义内容的语音帧,提高用户通话体验,其中,连续多帧数据帧包括语音帧和静音帧,语音帧为包括语义内容的数据帧,静音帧为不包括语义内容的数据帧。并且,电子设备可以将裁剪后多帧数据帧中的每个数据帧封装成RTP报文发送给其他设备,其他设备可以根据接收的RTP报文的序列号,对RTP报文进行校验,避免RTP报文在传输过程中,出现丢失RTP报文或者接收的多个RTP报文的乱序的情况,进一步提高用户通话体验。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top