“G10L17/02”专利分类搜索_专利查询_文献下载_出售_求购_买卖_交易

钻瓜专利网为您找到相关结果685个，建议您升级VIP下载更多相关专利

[发明专利]语音识别方法、装置、电子设备及可读存储介质-CN201810842328.6有效
发明人：辛颖 -专利权人：北京三快在线科技有限公司
申请日： 2018-07-27 - 公布日： 2023-06-09 - 主分类号： G10L17/02 文献下载
摘要：本发明提供了一种语音识别方法、装置、电子设备及可读存储介质，所述方法包括：获取目标人物对应的语音文件按照预设帧长划分的多个语音帧；对于各语音帧，生成所述语音帧的特征向量；对所述各语音帧的特征向量进行聚类，生成特征中心向量；根据参考噪声帧的特征中心向量，从所述各语音帧的特征中心向量中确定包含语音信息的特征中心向量，并生成目标语音特征中心向量，所述参考噪声帧为所述多个语音帧中的噪声帧，所述目标语音特征中心向量用于确定所述目标人物的身份信息。解决了现有技术中去噪导致的识别较慢、无法去掉所有噪声导致语音识别准确度较低的问题，能够直接提取特征，并将噪声弱化，提高了识别的速度和准确度。
语音识别方法装置电子设备可读存储介质

[发明专利]基于TS-VAD的通用语音提取方法-CN202310135769.3在审
发明人：张海剑;左世玉;张吴胜 -专利权人：武汉大学
申请日： 2023-02-13 - 公布日： 2023-06-06 - 主分类号： G10L17/02 文献下载
摘要：本发明公开了基于TS‑VAD的通用语音提取方法，包括：1)预训练的多尺度编码器对输入的混合录音和参考语音进行特征转换。2)预训练的嵌入提取出目标对象的嵌入向量。3)预训练语音提取网络建立目标语音的掩蔽。4)预训练多尺度语音解码器恢复目标语音波形。5)预训练后，固定预训练网络的多尺度编码器、嵌入向量提取网络和部分语音提取网络，6)微调网络的目标语音检测部分实现TS‑VAD概率向量估计。7)微调网络的目标语音提取部分估计出目标语音向量。8)微调网络二值化TS‑VAD概率向量，并与估计的目标语音向量相乘，得到最终输出语音。本发明在通用语音提取方面具有准确性，鲁棒性，并且在目标对象缺席的情况下能够有效地抑制静音对模型的负面影响。
基于 ts vad 通用语音提取方法

[发明专利]一种电力系统调度控制语音识别模型建立方法-CN202310150845.8在审
发明人：陈嘉;王龙;杨旸;吴谦;高强;吕为;翁俊鸿;张伟贤;曹易;曾旭;林朝哲;陈建民 -专利权人：深圳供电局有限公司
申请日： 2023-02-22 - 公布日： 2023-06-06 - 主分类号： G10L17/02 文献下载
摘要：本发明公开了一种电力系统调度控制语音识别模型建立方法，该方法通过声学词表用于在声学模型、语言模型完成训练后共同构成模型网络，当待识别语音输入后，由声学模型进行分析、解码、识别，并在声学词表中检索匹配的文字输出，实现声学词表的完备性、集中性在很大程度上影响着检索效率和匹配精度，声学词表为电网调度语音声学词表，电网调度语音声学词表以通用词表为基础，引用大量电网调度指令的语音库和语料库，该发明不仅体现了电网“大云物移智链”的前沿发展方向，也将极大地提升电网运维的便捷性和可靠性。
一种电力系统调度控制语音识别模型建立方法

[发明专利]一种确定鼾声信号的方法、装置、电子设备和存储介质-CN202211591068.2在审
发明人：张虎 -专利权人：深圳市倍轻松科技股份有限公司
申请日： 2022-09-15 - 公布日： 2023-06-06 - 主分类号： G10L17/02 文献下载
摘要：本发明提供一种确定鼾声信号的方法、装置、电子设备和存储介质，属于信号处理领域。方法包括：获取声音信号，并对所述声音信号进行人声段检测，并在目标人声段之前检测到至少两个人声段；若在所述声音信号中检测到目标人声段的起始帧，则在所述目标人声段中确定第一当前帧是否为鼾声段起始帧；如果确定出鼾声段起始帧，则从所述鼾声段起始帧的下一帧起确定鼾声段结束帧；将所述鼾声段起始帧和所述鼾声段结束帧之间的声音信号作为鼾声信号。采用本发明，可以在嵌入式系统上实现实时的鼾声信号检测。
一种确定鼾声信号方法装置电子设备存储介质

[发明专利]基于性别、国籍和情感信息的声纹识别方法-CN202010011692.5有效
发明人：党建武;李凯;王龙标 -专利权人：天津大学
申请日： 2020-01-06 - 公布日： 2023-06-06 - 主分类号： G10L17/02 文献下载
摘要：本发明公开了基于性别、国籍和情感信息的声纹识别方法,步骤具体如下：首先数据预处理，其次特征的提取，然后神经网络参数训练：神经网络的具体结构，在训练过程中，首先打乱训练句子的输入顺序，然后随机选择128句作为一个训练batch，数据迭代次数为80；打分融合工具需要的训练文件是每一个系统的开发集和测试集结果；测试集使用的是VOXCELEB1 test；开发集是基于1211个训练说话人语句生成的包含4万个测试对的测试文件；然后经过100次迭代得到最终的测试集打分结果。本发明提升了识别率。
基于性别国籍情感信息声纹识别方法

[发明专利]一种涉案声纹库自动构建的方法和装置-CN202310100660.6在审
发明人：胡文娟 -专利权人：厦门市美亚柏科信息股份有限公司
申请日： 2023-02-07 - 公布日： 2023-06-02 - 主分类号： G10L17/02 文献下载
摘要：本发明提出了一种涉案声纹库自动构建的方法，包括：语音提取，获取有关人员的电子设备中保存的声音文件并进行提取；语音切割，借助语音识别引擎ASR将提取到的所述语音文件切分为语音片段；计算语音特征，利用梅尔频率倒谱系数MFCC作为声学特征，计算得到语音帧特征矢量并对声纹矢量量化；语音聚类，进行PCA转换进行主成分分析，选择K均值算法对语音进行智能聚类，提取所有相关人员的语音特征；构建声纹库，根据语音聚类的结果，提取聚类后语音文件的声纹特征，建立规范化的标准应用库。通过将涉案人员的声纹信息加入人员信息数据库，后续案件侦破过程中可通过声纹自动识别技术快速锁定犯罪嫌疑人，将侦查范围缩小至极小，极大地提升案件的侦破效率。
一种涉案声纹自动构建方法装置

[发明专利]基于声纹识别的门禁处理方法及装置-CN202310087698.4在审
发明人：刘金玉;邓文杰;张硕;及瑞丰 -专利权人：金茂云科技服务（北京）有限公司
申请日： 2023-01-29 - 公布日： 2023-06-02 - 主分类号： G10L17/02 文献下载
摘要：基于声纹识别的门禁处理方法及装置，该方法对采集的语音信号进行预处理，预处理包括端点检测和噪声消除；端点检测环节对输入的语音信号音频流进行无效部分删除；噪声消除环节对输入的语音信号音频流进行背景噪声滤除；采用混合高斯‑通用背景模型将语音信号中的声学特征投影到高维空间上，得到高维的均值超矢量；进行特征匹配，特征匹配采用矢量量化匹配计算训练对象的平均量化失真，并根据平均量化失真计算结果进行训练对象判断，若平均量化失真计算结果小于预设阈值，则判断训练对象是原训练对象，若平均量化失真计算结果大于等于预设阈值，则判断训练对象不是原训练对象。本发明安全性高，杜绝病毒通过设备传播；识别效率高。
基于声纹识别门禁处理方法装置

[发明专利]一种声纹识别方法、装置、电子设备及存储介质-CN202110200815.4有效
发明人：杨奇;陈书楷 -专利权人：厦门熵基科技有限公司
申请日： 2021-02-23 - 公布日： 2023-06-02 - 主分类号： G10L17/02 文献下载
摘要：本发明公开了一种声纹识别方法、装置、电子设备及存储介质；其中，方法包括：获取语音信号，并从语音信号中获取语音片段；提取语音片段的频谱图；对频谱图进行周期变换，得到周期频谱；将周期频谱变换为梅尔频谱，并基于梅尔频谱得到语谱图；通过预设CNN模型MobileAudioNet从语谱图中提取声纹特征；匹配声纹特征与预设声纹特征，识别声纹特征对应的说话人ID。从而提高了声纹识别率和识别速度。
一种声纹识别方法装置电子设备存储介质

[发明专利]基于一维卷积非对称双向长短时记忆网络的声纹识别方法-CN201910045664.2有效
发明人：王兴梅;薛复昭;刘安华 -专利权人：哈尔滨工程大学
申请日： 2019-01-17 - 公布日： 2023-05-30 - 主分类号： G10L17/02 文献下载
摘要：基于一维卷积非对称双向长短时记忆网络的声纹识别方法，属于声纹识别技术领域。本发明首先对原始语音信号进行预处理；构建非对称双向长短时记忆网络ABLSTM模型，以7：3的比例分配正向传播的LSTM和反向传播的LSTM的隐藏层神经元个数和输出层权重，使识别结果更大程度取决于正向传播的LSTM，提高声纹识别的精度；采用1DCNN进行声纹特征提取，利用最大池化操作减少特征参数，保留特征语音的声纹特征，并采用Leaky ReLU激活函数处理特征提取结果；采用提取同一时刻的声纹特征作为提出的非对称双向长短时记忆网络模型一个时间步的输入，利用归一化指数函数实现较精确的声纹识别。本发明方法训练速度较快，能更好的提高声纹识别的正确率，有一定的有效性。
基于卷积对称双向短时记忆网络声纹识别方法

[发明专利]一种基于多特征融合和组合模型的鸟声识别方法-CN202110912736.6有效
发明人：周晓彦;欧昀;李大鹏;刘文强 -专利权人：南京信息工程大学
申请日： 2021-08-10 - 公布日： 2023-05-30 - 主分类号： G10L17/02 文献下载
摘要：本发明公开了一种基于多特征融合和组合模型的鸟声识别方法，包括：对读取的原始鸟声音频进行预处理，包括预加重和分帧加窗；提取鸟声的梅尔倒谱系数、梅尔滤波后的能量系数、短时过零率和短时频谱质心四种特征，分别归一化后进行纵向拼接形成融合特征；绘制STFT语谱图；将融合特征和绘制的STFT语谱图分别输入构建的两个基于Inception模块的CNN模型进行训练，训练完成后将两个模型输出的概率数组进行拼接形成一个特征数组，并将该特征数组作为ANN模型的输入进行训练，训练完成后加载上述三个模型的最优参数；将待测的任一鸟声音频输入加载最优参数后的三个模型，得到鸟声识别分类结果。本发明可提高不同鸟声之间特征的差异性，并且提高了鸟声识别准确率。
一种基于特征融合组合模型鸟声识别方法

[发明专利]基于机器学习的声纹特征识别方法及系统-CN202211682062.6有效
发明人：请求不公布姓名 -专利权人：广州佰锐网络科技有限公司
申请日： 2022-12-27 - 公布日： 2023-05-23 - 主分类号： G10L17/02 文献下载
摘要：本发明提供的基于机器学习的声纹特征识别方法及系统，本发明通过检测到的语音处理请求，对平台用户语音输入信息进行声纹描述向量提炼，获得所述平台用户语音输入信息的第一活体声纹描述向量并与G个第二活体声纹描述向量进行拼接，获得G个第一目标活体声纹描述向量，所述G个第二活体声纹描述向量和所述G个第一目标活体声纹描述向量皆与G个用户情感反馈标签具有一对一匹配关系，结合所述G个第一目标活体声纹描述向量，对所述平台用户语音输入信息进行语音分类操作，获得所述平台用户语音输入信息的语音分类结果。本发明结合前端的信号和语音激活检测技术，可以提高整个系统的鲁棒性，提高了识别准确度，减少了系统资源的开销。
基于机器学习声纹特征识别方法系统

[发明专利]一种基于概率球面判别分析信道补偿的说话人识别方法-CN202310089702.0在审
发明人：罗辉;肖庆欣;景维鹏 -专利权人：东北林业大学
申请日： 2023-02-09 - 公布日： 2023-05-16 - 主分类号： G10L17/02 文献下载
摘要：一种基于概率球面判别分析信道补偿的说话人识别方法，本发明涉及一种概率球面判别分析信道补偿的说话人识别方法。本发明的目的是为了解决现有线性概率判别分析模型的高斯假设使得长度归一化会破坏说话人的特征分布从而影响识别结果的问题。过程为：1、获取说话人的音频数据构建数据集，并对说话人进行编号同时确定说话人和音频数据的对应关系；2、获得说话人的身份矢量i‑vector特征；3、将说话人的身份矢量i‑vector特征分布变换为冯米塞斯VonMises‑Fisher分布；4、得到训练好的CC‑PSDA；5、将待测音频数据输入训练好的CC‑PSDA，判断是否为同一个人的音频数据。本发明用于声纹识别领域。
一种基于概率球面判别分析信道补偿说话识别方法

[发明专利]一种具有声纹识别功能的点读笔系统-CN202310064530.1在审
发明人：林坚;蒋尚 -专利权人：江西合力泰科技有限公司
申请日： 2023-01-30 - 公布日： 2023-05-16 - 主分类号： G10L17/02 文献下载
摘要：本发明提供了一种具有声纹识别功能的点读笔系统，包括：控制终端、点读笔壳体、控制组件、语音识别组件、文字转换投射组件；控制终端配置为通过执行内部程序实现如下步骤：获取语音识别组件采集到的声音信息，对声音信息进行预处理，生成多个小帧语音信号；对每一小帧语音信号进行特征提取处理，确定方言音种类，生成频谱特征参数；将频谱特征参数与声纹模型数据库中的参数进行相似度匹配，生成识别结果，声纹模型数据库内部存储有多个不同的个人声纹特征参数；根据识别结果将声音信息进行文字转化，生成文字信息，通过控制组件将文字信息投射至文字转换投射组件。此外，现有点读笔系统功能单调，存在视听同步交互障碍，影响教学效率。
一种具有声纹识别功能点读笔系统

[发明专利]一种基于聚类的声纹数据自动采集方法-CN202211579797.6在审
发明人：夏立;周枫;朱和军;董文君 -专利权人：南京烽火星空通信发展有限公司
申请日： 2022-12-09 - 公布日： 2023-05-16 - 主分类号： G10L17/02 文献下载
摘要：本发明属于声纹数据采集技术领域，提供了一种基于聚类的声纹数据自动采集方法，包括以下步骤：收集数据、音频解码、语音活性检测、音频质量检测、提取声纹特征、声纹聚类和处理缓存数据，首先通过收集大量的含有声音的原始音频数据，构建原始音频数据库，并通过音频解码模块对音频数据进行解码，确保音频数据符合后续的程序检测条件，并根据数据来源及标签情况进行声纹聚类；本发明通过一整套完备的声纹数据自动采集方案，可以从海量数据中筛选声纹数据，并融合了语音活性检测、声纹识别、声纹聚类算法等关键技术解决了无标签数据声纹样本采集的问题。
一种基于声纹数据自动采集方法

[发明专利]一种基于局部纹理特征的音频场景识别方法及系统-CN201811559040.4有效
发明人：白海钏;葛凤培;张鹏远;高圣翔;黄远;沈亮;林格平 -专利权人：中国科学院声学研究所;国家计算机网络与信息安全管理中心
申请日： 2018-12-19 - 公布日： 2023-05-16 - 主分类号： G10L17/02 文献下载
摘要：本发明公开了一种基于局部纹理特征的音频场景识别方法，所述方法包括：将待识别的音频信号进行预处理后逐帧提取Mel‑fbank特征和描述局部纹理的LTP特征；进行融合后输入预先训练得到的时延深度神经网络模型；得到对应于不同音频场景类型的后验概率；采用后处理决策机制处理后验概率获取待识别音频信号对应的音频场景标签。本发明的音频场景识别方法，基于对场景时频信息的有效表征，更好地实现了音频场景种类的识别。
一种基于局部纹理特征音频场景识别方法系统