[发明专利]处理用户话语的电子设备及其控制方法在审

申请号：	201980055960.9	申请日：	2019-08-23
公开（公告）号：	CN112639962A	公开（公告）日：	2021-04-09
发明（设计）人：	郑义锡;姜相机;白盛焕;郑晳荣;金炅泰	申请（专利权）人：	三星电子株式会社
主分类号：	G10L15/04	分类号：	G10L15/04;G10L15/14;G10L15/16;G10L15/02;G10L15/22;G06F3/16
代理公司：	北京市立方律师事务所 11330	代理人：	谢玉斌
地址：	韩国***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：	公开了一种电子设备，包括：通信接口；存储器；麦克风；扬声器；显示器；主处理器；以及通过识别在语音输入中包括的唤醒词来启用主处理器的副处理器。当执行存储在至少一个存储器中的命令时，主处理器执行以下操作：接收注册唤醒词的第一语音输入；如果第一语音输入不包括预定词，则经由麦克风接收包括与第一语音输入相同的词的第二语音输入，生成用于识别唤醒词的唤醒词识别模型，并且将生成的唤醒词识别模型存储在至少一个存储器中；以及如果第一语音输入包括预定词，则经由扬声器或显示器来输出用于请求第三语音输入的信息。
搜索关键词：	处理用户话语电子设备及其控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

暂无信息

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于三星电子株式会社，未经三星电子株式会社许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201980055960.9/，转载请声明来源钻瓜专利网。

同类专利

一种基于语音识别的处理方法和相关装置-202211432450.9
发明人：汤志远;黄申;商世东 -专利权人：腾讯科技（深圳）有限公司
申请日： 2022-11-15 - 公布日： 2023-10-27 - 主分类号： G10L15/04
摘要：本申请实施例公开了一种基于语音识别的处理方法和相关装置，提取待处理语音数据中待处理语音片段的第一语音特征输入目标语音识别模型中的浅层计算模块，结合其关联的第一历史信息进行浅层计算得到第一隐层特征；将第一隐层特征输入目标语音识别模型中的目标门控模块进行断点预测得到第一预测结果，有效预测待处理语音片段是否为断点。第一预测结果表示待处理语音片段为断点时，在待处理语音片段切断待处理语音数据并清空第一历史信息；反之，将第一隐层特征输入目标语音识别模型中的深层计算模块进行深层计算得到语音识别结果。该方法确保待处理语音数据中独立语音数据的语义独立性，避免缓存过多的历史信息，提高语音识别的准确性。

分句方法与装置、存储介质、电子设备-202010651131.1
发明人：李钊;刘岩;赵凯;贺雄彪 -专利权人：泰康保险集团股份有限公司
申请日： 2020-07-08 - 公布日： 2023-10-27 - 主分类号： G10L15/04
摘要：本公开属于语音识别技术领域，涉及一种分句方法及装置、计算机可读存储介质、电子设备。该方法包括：采集语音信息，并确定与语音信息对应的待测句以及与待测句对应的标准句；划分标准句得到多个标准子句，并在多个标准子句中确定与待测句对应的目标子句；若待测句与目标子句的第一相似度大于第一阈值，确定待测句为所述标准句的子句，以作为与语音信息对应的分句结果。本公开解决了语音识别过程中由于长句停顿现象导致的语音识别错误的问题，提供了根据场景和语料的实际情况进行切割的方式，提高了长句切分的准确度和效率，丰富了分句方法应用在除语音问答系统之外的应用场景，优化了用户体验。

语音端点检测方法、装置、设备及存储介质-202210318838.X
发明人：李鸽子;迟朋;杨凯悦;朱励轩;单伟伟 -专利权人：华为技术有限公司;东南大学
申请日： 2022-03-29 - 公布日： 2023-10-24 - 主分类号： G10L15/04
摘要：本申请提供了一种语音端点检测方法、装置、设备及存储介质。在实施例中，接收音频信号；音频信号包括N个音频帧；确定N个音频帧中第i音频帧的声学特征矩阵，第i音频帧的声学特征矩阵包括第i个音频帧的多个声学特征各自的特征值；根据第i个音频帧的声学特征矩阵、准则层矩阵和目标层矩阵，计算第i个音频帧的阈值；准则层矩阵包括音频帧的多个声学特征在不同语音检测准则下的权重，目标层矩阵包括不同语音检测准则的权重；根据第i个音频帧的阈值，第一门限值和第二门限值，确定第i个语音帧的类型。根本本申请实施例可根据不同场景下的音频的多种声学特征在不同的语音检测准则下所占的比重进行语音端点检测，提高语音端点检测的准确度。

语音断句时长的动态确定方法、装置、介质和电子设备-202310685219.9
发明人：李龙飞;刘杰;陈彩可;张炜玮;林孟超 -专利权人：中国第一汽车股份有限公司;一汽（北京）软件科技有限公司
申请日： 2023-06-09 - 公布日： 2023-10-13 - 主分类号： G10L15/04
摘要：本申请提供了一种语音断句时长的动态确定方法、装置、介质和电子设备。本申请基于用户语音的当前静音时长以及前次确定的当前待定时长和当前断句时长和预设最大断句时长更新所述当前待定时长，将所述当前待定时长作为历史待定时长存入历史时长数据集。所述历史时长数据集中保存着对所述用户语音进行静音检测过程中历次静音所对应的历史待定时长。通过所述历史时长数据集中保存的多个历史待定时长动态更新当前断句时长，避免非正常的历史待定时长对确定当前断句时长的影响，且能够根据每个人的说话习惯和语速动态更新当前断句时长，从而满足诗句断句的需要。

一种词边界估计方法、装置及电子设备-202010473529.0
发明人：陈孝良;王江;冯大航 -专利权人：北京声智科技有限公司
申请日： 2020-05-29 - 公布日： 2023-10-13 - 主分类号： G10L15/04
摘要：本发明提供一种词边界估计方法、装置及电子设备，语音数据中的最小解码单元的WFST解码结果包括所述最小解码单元对应的解码结果以及所述解码结果的时间信息；若所述最小解码单元解码过程中识别出所述预设标识，则将所述时间信息中，识别出所述预设标识的时间确定为所述解码结果的词尾时间边界。即由于本发明中用于生成所述WFST优化模型的样本中的词的词尾设置有一预设标识；所述预设标识表示所述词结束，这样在WFST优化模型解码过程中，若识别出预设标识，则认为当前词结束，将识别出预设标识的时间作为当前词的词尾时间边界，从而可以准确的确定出词尾时间边界。

业务数据质检方法、装置、设备及存储介质-202310876385.7
发明人：刘晓苓;苟玉鹏;杨俊逸;陈凯利;唐文涛;黄敬;霍鹃;刘东 -专利权人：科大讯飞股份有限公司
申请日： 2023-07-17 - 公布日： 2023-10-03 - 主分类号： G10L15/04
摘要：本申请公开了一种业务数据质检方法、装置、设备及存储介质，本申请可以预先在营业厅客服人员侧配备拾音设备，基于此可以实现实时及非实时的按照业务对服务录音数据进行分割的目的，调用预配置的质检分析模型，对每一业务对应的音频数据进行质检分析，得到质检分析结果，并对各业务对应的音频数据的质检分析结果进行统计分析。本申请基于拾音设备自动获取客服人员的服务录音数据，并按照业务对服务录音数据进行分割，便于后续的质检分析及统计，整个过程无需派遣专人驻店监听，节省了人力资源，且可以避免人工监听容易存在的漏检问题。

歌词转换点检测方法、装置、计算机设备及存储介质-202110775920.0
发明人：萧博耀;高旋 -专利权人：深圳万兴软件有限公司
申请日： 2021-07-09 - 公布日： 2023-09-29 - 主分类号： G10L15/04
摘要：本发明实施例公开了一种歌词转换点检测方法、装置、计算机设备及存储介质，涉及音频处理技术领域。其中方法包括：获取目标音频数据；对目标音频数据进行检测以得到目标音频数据的节拍；对目标音频数据进行人声分离处理以得到人声数据；计算人声数据的幅值以得到人声能量波形；对人声能量波形进行预处理以得到目标波形；根据目标音频数据的节拍以及预设转换条件对目标波形进行检测以确定歌词的转换点。该方法实现了机器设备对音乐和人声的有效识别，并通过目标音频数据的节拍以及预设转换条件来检测经过处理后的人声数据实现精准地确定歌词的转换点，大大提高了对歌词转换点定位的精度以及效率。

用于感测语音结束的方法和实现该方法的电子设备-201780083799.7
发明人：金龙浩;苏拉布·帕特里亚;金璇儿;朱佳贤;黄相雄;张世二 -专利权人：三星电子株式会社
申请日： 2017-11-23 - 公布日： 2023-09-26 - 主分类号： G10L15/04
摘要：提供了一种装置和方法，该装置的各种实施例包括：麦克风；存储器；以及处理器，所述处理器功能地连接到所述麦克风或所述存储器，其中，所述处理器被配置为：基于语音输入对结束点检测(EPD)时间进行计数；当所述EPD时间到期时，确定所述语音输入的最后的词语是否对应于存储在所述存储器中的先前配置的词语；以及，如果所述最后的词语对应于所述先前配置的词语，则延长所述EPD时间并等待接收语音输入。另外，其他实施例也是可能的。

一种语音交互方法以及语音交互系统-201810473045.9
发明人：孙珏;徐曼 -专利权人：蔚来（安徽）控股有限公司
申请日： 2018-05-17 - 公布日： 2023-09-19 - 主分类号： G10L15/04
摘要：本发明涉及一种语音交互方法以及语音交互系统。该方法包括：预处理步骤，对输入的语音信息进行预处理并输出语音段；语义识别步骤，对所述预处理步骤输出的语音段进行语义识别并输出语义信息；性别分类步骤，对所述预处理步骤输出的语音段识别出用户性别并输出性别信息；以及融合处理步骤，融合所述性别信息和所述语义信息而获得对于所述语音信息的个性化回复信息。根据本发明的音交互方法以及语音交互系统，能够根据用户的性别进行区分回复，提高用户体验，提高语音交互的智能化。

一种说话人分割方法、装置、设备和存储介质-202010621958.8
发明人：张鹏;胡新辉;徐欣康 -专利权人：浙江同花顺智能科技有限公司
申请日： 2020-06-30 - 公布日： 2023-09-12 - 主分类号： G10L15/04
摘要：本申请涉及说话人分割方法、装置、设备和存储介质。该方法包括：确定语音信息中待进行说话人分割的语音的长度；比较所述语音的长度与预设阈值之间的大小；基于比较结果对所述语音进行语音段的划分；确定划分后的语音的切分点；基于所述切分点对语音中的说话人进行区分。如此，可提升短语音的切分稳定性，并提高整体语音的切分精度。

语音识别方法、装置、电子设备和存储介质-202310499910.8
发明人：赵翔宇 -专利权人：阿里巴巴（中国）有限公司
申请日： 2023-04-28 - 公布日： 2023-09-05 - 主分类号： G10L15/04
摘要：本申请实施例提供了一种语音识别方法、装置、电子设备和存储介质，该语音识别方法包括：采集待识别语音片段；在采集所述待识别语音片段时并行对已采集到的语音数据进行编码，获得所述待识别语音片段的编码结果；对所述待识别语音片段的编码结果进行解码，获得所述待识别语音片段对应的文本数据。本方案能够在算力资源受限的语音识别设备中降低语音识别的时延。

一种振铃音识别方法及装置-202310850257.5
发明人：樊冯飞;姚树杰 -专利权人：鼎富智能科技有限公司
申请日： 2023-07-11 - 公布日： 2023-09-01 - 主分类号： G10L15/04
摘要：本申请实施例提供一种振铃音识别方法及装置，包括从预设平台获取第一时间范围内的每一通未接通话的信道数据；对于每一通未接通话，利用预设模型从信道数据中截取多个语音段；利用预设模型对多个语音段依次进行振铃音识别，以及，在识别出其中一个语音段对应的振铃音类型后，停止识别。可见，本申请实施例提供的方法考虑到未接通话的振铃音内容是不断重复的，因此，该方法对未接通话的信道数据进行了切分截取，之后基于小的语音段进行振铃音识别。这样，减小了对未接通话的识别数据量，缩短了振铃音类型识别的时间，提升了识别效率。

言语发音噪声事件的自动检测和衰减-202180062729.X
发明人：叶宗鑫;G·琴加莱;M·D·德伯格 -专利权人：杜比国际公司
申请日： 2021-08-11 - 公布日： 2023-08-29 - 主分类号： G10L15/04
摘要：描述了一种对包括至少一个言语发音噪声事件的输入音频信号执行自动音频增强的方法。所述方法包括：将所述输入音频信号分割成多个音频帧；从所述音频帧获得至少一个特征参数；以及至少部分地基于所获得的特征参数来确定所述输入音频信号内的所述言语发音噪声事件的相应类型和与所述言语发音噪声事件相关联的相应时间‑频率范围。

语音断句方法、装置、计算机设备及存储介质-202110725596.1
发明人：曹磊;李俊蓉 -专利权人：平安科技（深圳）有限公司
申请日： 2021-06-29 - 公布日： 2023-08-18 - 主分类号： G10L15/04
摘要：本发明涉及人工智能技术领域，提供一种语音断句方法及相关设备，使用静默时间计算模型根据用户语音的语速语调及用户参数计算静默时间，以所述静默时间为断点对用户语音进行断句处理，实现了千人千面的打断判断；在得到多个第一断句语音后，使用词汇模型识别每个第一断句语音中的末端字词是否为目标字词，从而在识别到有目标末端字词为目标字词时，对包含目标末端字词的目标第一断句语音进行断句处理得到多个第二断句语音，将包含目标末端字词的第二断句语音与目标第一断句语音相邻的第一断句语音进行合并处理得到第三断句语音，最后根据第三断句语音对第一断句语音进行更新，得到目标断句语音，实现了对用户语音的正确断句。

音频识别方法、装置和存储介质-202310456605.0
发明人：王运侠 -专利权人：思必驰科技股份有限公司
申请日： 2023-04-25 - 公布日： 2023-08-15 - 主分类号： G10L15/04
摘要：本申请公开了一种音频识别方法、装置和存储介质，涉及音频识别技术领域，所述方法包括：通过将目标音频数据输入至音频识别模型；通过音频识别模型将目标音频数据分割为n个chunk，n为大于1的整数；对于n个chunk中的每个chunk，通过音频识别模型获取当前chunk的历史状态，根据历史状态和当前chunk对当前chunk进行计算；历史状态为在计算当前chunk的前一chunk时在attention操作之前计算并保存的状态；通过音频识别模型根据各个chunk的计算结果输出识别之后的目标音频数据。解决了现有技术中音频识别效率较低的问题，达到了可以通过记录历史状态，进而通过历史状态和当前chunk对当前chunk进行计算，而无需基于前一chunk的全部数据进行计算，提高音频识别效率的效果。

一种对话式数据集的生成方法和装置-202310505189.9
发明人：刘杰辰 -专利权人：北京爱数智慧科技有限公司
申请日： 2023-05-08 - 公布日： 2023-08-15 - 主分类号： G10L15/04
摘要：本申请公开了一种对话式数据集的生成方法和装置，该方法包括以下步骤：从多媒体文件对应的字幕数据获取对话数据，所述对话数据包括对话文字和相应的时间戳；将所述对话数据切分为多个对话段，并基于每个对话段及其对应的起始时间戳，对所述多媒体文件对应的音频文件进行切分，得到与所述多个对话段对应的多个音频段；对所述多个音频段进行说话人识别，并根据识别结果，标注与各个音频段对应的对话段中的每句话的说话人，将标注后的对话段作为对话式数据集。本申请实施例从字幕数据中获取对话数据，并对对话数据进行切分和标注，从而生成对话式数据集，能够降低对话式数据集的生成成本，提升对话式数据集的生成速度、生成效率与多样化程度。

一种基于多粒度切片的音频分割与分类方法-202310666062.5
发明人：刘强;郑铸 -专利权人：四川中云智网科技有限公司
申请日： 2023-06-06 - 公布日： 2023-08-11 - 主分类号： G10L15/04
摘要：本发明公开了一种基于多粒度切片的音频分割与分类方法，包括对音频进行预处理后得到统一采样率的音频文件；将音频文件在不同的时间粒度下分别按相应的时间粒度进行切片；对不同时间粒度下的每段切片进行MFCC特征提取后作图像化处理；建立图像分类卷积神经网络模型，并进行训练和验证；将待处理音频处理后输入图像分类卷积神经网络模型，得到每个切片的分类结果；根据分类结果进行聚合分析，得到音频文件的分割点和分段类型。本发明通过采用不同时间粒度对长音频进行切割，利用图像分类卷积神经网络模型进行类型判断和分类归集，最后进行聚合分析，从而可快速准确的找到不同类型音频之间的切割点，并判断切割点前后音频段的音频类型。

音频识别方法、装置、存储介质和计算设备-202211612005.0
发明人：穆学锋;李勇;郑加强;沈忱;吴敏;周倩 -专利权人：杭州网易云音乐科技有限公司
申请日： 2022-12-15 - 公布日： 2023-08-11 - 主分类号： G10L15/04
摘要：本公开的实施方式提供了一种音频识别方法、装置、存储介质和计算设备。包括：检测用户哼唱的音频片段或用户输入的音频片段，对所述音频片段进行语音识别；在语音识别结果为失败的情况下，显示第一控件；在检测到所述用户对所述第一控件点击的情况下，根据所述音频片段生成帖子并将所述帖子分享到社区论坛。如此，在语音识别结果为失败时，自动将包含音频片段的帖子分享到社区论坛上，利用社区论坛上众多的用户帮助识别音频片段对应的歌名信息。将音频识别与社区论坛结合，提升用户在使用音频识别时的使用体验。

确定重复录音片段的方法、装置、电子设备和存储介质-202310545161.8
发明人：赵亮;姜平;史佳艳;何敏 -专利权人：北京明略昭辉科技有限公司
申请日： 2023-05-15 - 公布日： 2023-08-08 - 主分类号： G10L15/04
摘要：本申请提供了确定重复录音片段的的方法、装置、电子设备和存储介质，所述方法包括：获取同一门店中每个语音采集设备的语音文本信息，其中，所述语音文本信息包括每条语音对应的语音文本和语音始末时刻；根据所述语音始末时刻，从多条所述语音文本中选取满足预设条件的多对候选文本片段，其中，每对候选文本片段包括两个语音采集设备中的语音文本，所述候选文本片段包括每个语音采集设备的至少一条语音文本；从所述候选文本片段中选取文本内容相似度最小的目标文本片段；若所述目标文本片段的相似度小于预设阈值，则将所述目标文本片段对应的录音作为重复录音片段。本申请提高了确定重复录音片段的准确性。

语音识别方法、装置、系统、设备及介质-202310402551.X
发明人：彭毅;吕安超;范璐 -专利权人：京东科技信息技术有限公司
申请日： 2023-04-14 - 公布日： 2023-08-08 - 主分类号： G10L15/04
摘要：本发明实施例公开了一种语音识别方法、装置、系统、设备及介质。该方法响应于获取到待识别语音的音频尾包，通过确定音频尾包中从最后一帧至第一帧的首个非静音帧，得到预截断帧，以实现对音频尾包中尾端的无效静音片段的确定，进而通过对音频尾包中的第一帧至预截断帧进行解码，得到音频尾包的解码结果，以实现对音频尾包中除无效静音片段之外的有效片段的解码，避免对尾端的无效静音片段进行解码，节省了解码无效静音片段的时间开销，减少了音频尾包的解码时间，进而减少了语音识别的响应时间，提高了语音识别的响应速度。

VAD尾点检测方法、装置、服务器和计算机可读介质-201910147062.8
发明人：臧启光;付晓寅;陈涛;郭启行;吴玉芳;瞿琴 -专利权人：百度在线网络技术（北京）有限公司
申请日： 2019-02-27 - 公布日： 2023-08-04 - 主分类号： G10L15/04
摘要：本公开提供一种VAD尾点检测方法和智能设备，通过确定语音包中包含VAD尾点的概率pa，并在解码语音包后，确定与语音包对应的文字指令的语义完整性的概率pn，根据pa、pn和预设的阈值，确定语音包是否包含VAD尾点，从而将声学VAD检测和语义VAD检测相结合，实现VAD尾点检测；本公开VAD尾点检测更加准确，可以避免语音停顿导致的误检，并解决语音包中VAD尾点过长导致的反应迟钝的问题，提升语音人机交互过程中的用户体验。本公开还提供一种服务器和计算机可读介质。

一种音频拼接方法、电子设备及存储介质-202310565047.1
发明人：李昌晋;曹喜信;曹昕妍 -专利权人：北京大学
申请日： 2023-05-19 - 公布日： 2023-07-28 - 主分类号： G10L15/04
摘要：本发明提供了一种音频拼接方法、电子设备及存储介质，用于对依序安装在设定位置的Zm个智能设备获取目标对象的音频片段进行拼接，从而获得目标对象的最终音频，所述方法包括如下步骤：获取智能设备采集目标对象音频信息的时间段列表和对应的原始音频片段列表，获取第一重合音频片段和第二重合音频片段，进行噪声检测获取中间音频片段和备用音频片段，对中间音频片段对应的原始音频片段进行语义检测，当语义检测值大于第一预设阈值，将备用音频片段对应的原始音频片段裁剪，并和中间音频片段对应的原始音频片段进行拼接，从而获取最终音频，使得无重合的目标对象的最终音频更加完整，语义更通顺、清晰。

音频处理方法、装置、录音终端、电子设备和存储介质-202310466334.7
发明人：倪璞;刘晓苓;杨俊逸 -专利权人：科大讯飞股份有限公司
申请日： 2023-04-26 - 公布日： 2023-07-25 - 主分类号： G10L15/04
摘要：本发明提供一种音频处理方法、装置、录音终端、电子设备和存储介质，通过获取目标区域对应的视频流，基于视频流进行人脸跟踪，并在对单个第一人员标识或所有第一人员标识跟踪失效的情况下启动计时，直至计时时长达到预设时长，或跟踪结果变更为第二人员标识，基于计时时长，或，第一人员标识和第二人员标识，切分目标区域对应的音频流，实现了以人员为单位的自动化音频流切分方案，克服了现有方案中仅能对音频进行定时切分或者手动操作切分，以致切分方法无法区分音频对应的顾客或成效不高的缺陷，为后续根据实际需要快速准确查找到指定的音频文件提供了条件。

说话人分离算法的评估方法、装置、电子设备和存储介质-202110778868.4
发明人：苗天时;杨晶生 -专利权人：北京字跳网络技术有限公司
申请日： 2021-07-09 - 公布日： 2023-07-25 - 主分类号： G10L15/04
摘要：本公开提供一种说话人分离算法的评估方法、装置、电子设备和存储介质。该方法的一具体实施方式包括：将样本音频的说话人分离结果与样本音频的预设语音分段结果对齐，得到第一对齐结果，其中，说话人分离结果通过待评估的说话人分离算法得到，第一对齐结果中语音段落的划分方式与预设语音分段结果一致，第一对齐结果中的说话人标签根据说话人分离结果中的预测说话人标签确定；根据第一对齐结果，评估待评估的说话人分离算法的覆盖效果。上述实施方式能够获得合理的说话人分离算法的评估结果。

流式语音端点检测方法、装置及设备-202011543429.7
发明人：李锴;丛继晔;沈来信 -专利权人：北京华宇信息技术有限公司
申请日： 2020-12-23 - 公布日： 2023-07-04 - 主分类号： G10L15/04
摘要：本申请公开了一种流式语音端点检测方法、装置及设备，所述方法包括：使用语音端点检测模型，判断流式语音的待检测点的语音状态是否满足预设条件；当流式语音的待检测点的语音状态满足预设条件时，确认所述待检测点为语音端点。

一种基于混合特征的音频预警精准辨识方法-202310257571.2
发明人：袁奡;葛迅;陈泽华;骆威宇;徐启敏 -专利权人：东南大学
申请日： 2023-03-14 - 公布日： 2023-06-27 - 主分类号： G10L15/04
摘要：本发明公开了一种基于混合特征的音频预警精准辨识方法，该方法对收集到的音频语音进行分析，确定预警信号的发出时间，从而对音频预警的及时性进行准确评测。首先，采用logmmse‑谱减法进行双重降噪，将录制的语音中的噪声信息滤除；接着，使用基于短时能量的端点检测，标注出待测语音中的有效语音段；然后，对有效语音段的每帧语音提取MFCC特征和波形多项式特征；继而，分别将两种特征作为卷积神经网络两个通道的输入，将两个通道的输出相加后得到混合特征；最后，将混合特征作为softmax函数的输入，通过最大概率值确定目标语音(音频预警信号)所在的语音段，该语音段的起始位置就是预警信号的发出时间。

一种语音分割方法、装置以及计算机可读存储介质-202011343041.2
发明人：郭理勇;陈晓宇;曾晨晨;李志飞 -专利权人：出门问问(苏州)信息科技有限公司
申请日： 2020-11-25 - 公布日： 2023-06-27 - 主分类号： G10L15/04
摘要：本发明公开了一种语音分割方法、装置以及计算机可读存储介质，包括获取语音输入信息根据所获取的语音输入信息，生成对应的文本信息，其中文本信息中包括多个语句片段；获取每个语句片段在语音输入信息中的第一时间点和第二时间点，其中第一时间点表征语句片段的起始时间戳，第二时间点表征语句片段的结尾时间戳；根据第一时间点和第二时间点，获取语音输入信息中的语音片段。本方案通过将语音输入信息转换为文本，利用文本中的语句段确定第一时间点和第二时间点，再利用第一时间点和第二时间点作为语音分割点来分割语音输入信息以得到语音片段，以此获取的语音片段中只对应一个目标对象，可提升后续聚类时的准确度。

基于敏感频段调节的语音对抗样本防御方法、装置及设备-202310348234.4
发明人：李超豪;王滨;王星;张峰;钱亚冠;赵海涛 -专利权人：杭州海康威视数字技术股份有限公司
申请日： 2023-03-29 - 公布日： 2023-06-27 - 主分类号： G10L15/04
摘要：本申请提供一种基于敏感频段调节的语音对抗样本防御方法、装置及设备，该方法包括：获取待识别音频数据；依据目标智能语音识别模型的敏感频段，对所述待识别音频数据进行敏感频段滤波处理，得到处理后的音频数据；在第一语音识别结果与第二语音识别结果不一致的情况下，确定所述待识别音频数据为语音对抗样本，并拒绝对所述第一语音识别结果进行响应。该方法可以实现对语音对抗样本的有效检测和攻击防御，并降低对目标智能语音识别模型的正常语音识别的影响。

一种信息提取方法、设备及存储介质-201910817607.1
发明人：王明 -专利权人：腾讯科技（深圳）有限公司
申请日： 2019-08-30 - 公布日： 2023-06-23 - 主分类号： G10L15/04
摘要：本发明提供了一种信息提取方法、设备及存储介质，包括：接收目标对象的语音任务语句，并对语音任务语句进行分词，得到语音任务语句的分词信息；根据分词信息，从语音任务语句中确定出实体；根据分词信息和实体，对语音任务语句进行功能分析，得到功能任务；根据预设任务与槽位的对应关系，以及功能任务，确定出功能任务对应的至少一个任务槽位；根据预设信息抽取配置文件和至少一个任务槽位，确定出与至少一个任务槽位对应的至少一个信息抽取模型；利用至少一个信息抽取模型、实体和分词信息，从实体提取关键信息，得到至少一个任务槽位对应的至少一个关键信息。通过本发明，能够提供对槽位对应的关键信息提取的准确度。

一种拼接语音的识别方法和装置以及设备-202010002558.9
发明人：陈剑超;肖龙源;李稀敏;蔡振华;刘晓葳 -专利权人：厦门快商通科技股份有限公司
申请日： 2020-01-02 - 公布日： 2023-06-23 - 主分类号： G10L15/04
摘要：本发明公开了一种拼接语音的识别方法和装置以及设备。其中，所述方法包括：获取用户的正常语音数据，和将该正常语音数据剪切成预设段数，并将该剪切成预设段数的正常语音数据按语音乱序进行拼接得到拼接语音数据，和构建基于该正常语音数据和该拼接语音数据的二分类模型，和采用长短期记忆网络和卷积神经网络对该二分类模型进行拼接语音模型的训练，以及根据该经拼接语音模型训练后的二分类模型，对语音数据进行拼接语音的识别。通过上述方式，能够实现对拼接语音的识别，进而能够保障语音验证的安全性。

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]处理用户话语的电子设备及其控制方法在审

专利文献下载