“G10L15/06”专利分类搜索_专利查询_文献下载_出售_求购_买卖_交易

钻瓜专利网为您找到相关结果1805个，建议您升级VIP下载更多相关专利

[发明专利]一种小样本语义理解训练方法及系统-CN202311035254.2在审
发明人：李强;赵峰;庄莉;苏江文;王秋琳;张晓东;吴佩颖;王燕蓉;丘志强 -专利权人：国网信息通信产业集团有限公司;福建亿榕信息技术有限公司
申请日： 2023-08-17 - 公布日： 2023-09-15 - 主分类号： G10L15/06 文献下载
摘要：本发明公开了一种小样本语义理解训练方法及系统，具体涉及样本训练技术领域，包括数据处理模块以及与数据处理模块通讯连接的信息采集模块、信噪比较模块、样本标记模块以及效果判断模块；将样本偏离评估值和信噪偏移指数通过归一化处理计算得到样本有效性评估系数并通过样本有效性评估系数和有效性评估阈值的比较来判断样本的有效性，避免无效样本对训练效果的不利影响，提高语义理解训练的效率和准确性；根据生成的第一训练效果不佳信号、训练效果正常信号以及第二训练效果不佳信号，可以对同一批次的训练效果的有效性进行评估，以确定该批次的样本差异程度是否符合要求，从而为语义理解的样本训练的效率和实用性提供帮助。
一种样本语义理解训练方法系统

[发明专利]数据处理方法、装置、设备及可读存储介质-CN202310290345.4在审
发明人：曾锐鸿;马金龙;兰翔;马飞;焦南凯;盘子圣;王伟喆;黎子骏;黄祥康;吴文亮;邓其春;张政统;熊佳;谢睿;徐志坚;陈光尧 -专利权人：广州趣研网络科技有限公司
申请日： 2023-03-22 - 公布日： 2023-09-15 - 主分类号： G10L15/06 文献下载
摘要：本申请提供一种数据处理方法、装置、设备及可读存储介质，当需要收集用于训练语音识别系统的数据时，本申请可收集待标注数据；并对其抽样得到目标待标注数据，继而对其标注，得到目标标注数据；并核验其标注结果，得到第一分析结果；同时将其输入维度策略模块进行分析，得到第二分析结果；经过对目标标注数据的分析，有效减少其标注误差，因此，在分析目标标注数据的标注结果之后，可以结合目标标注数据的分析结果，对目标标注数据的标注结果进行分析，得到可以用于训练语音识别模型的第一目标伪标签数据，该数据可有效提高语音识别模型的识别准确度。利用本申请收集的数据做语音识别时，可在不同的场景中使用，且其识别的准确度较高。
数据处理方法装置设备可读存储介质

[发明专利]改进的预训练方法、电子设备和存储介质-CN202310706125.5在审
发明人：俞凯;马子阳;郑之胜;杨冠柔;陈谐 -专利权人：思必驰科技股份有限公司
申请日： 2023-06-14 - 公布日： 2023-09-15 - 主分类号： G10L15/06 文献下载
摘要：本发明公开改进的预训练方法、电子设备和存储介质，其中，预训练方法，用于预训练模型，所述预训练模型包括单元生成模块和主干网络，包括：利用所述主干网络对语音进行降采样得到第一语音表征，使用掩码对所述第一语音表征中的部分语音表征进行遮蔽得到第二语音表征，对所述第二语音表征进行聚合得到输出语音表征；对于所述输出语音表征的被遮蔽部分，与所述单元生成模块提取的离散目标计算损失，并在所述主干网络中进行梯度反向传播。本申请实施例提出了一个通过无监督算法提升自监督语音表征学习的框架，优化自监督学习的训练目标，在ASR任务上效果超过最先进的模型，同时在多项非ASR任务上取得好的效果。
改进训练方法电子设备存储介质

[发明专利]一种基于β-注意力变分自编码器特征解耦网络的语音情感识别方法-CN202310767643.8在审
发明人：陶华伟;胡子怡;刘洺远;耿磊;张庆辉;傅洪亮;秦瑶;王学梅 -专利权人：河南工业大学
申请日： 2023-06-27 - 公布日： 2023-09-15 - 主分类号： G10L15/06 文献下载
摘要：本发明公开了一种基于β‑注意力变分自编码器特征解耦网络的语音情感识别方法，该方法包括：S1、获取一个语音数据库，将数据库划分为训练集和测试集；S2、将训练集语音输入到WavLM特征提取网络中，得到特征x1；S3、对特征x1进行池化处理，得到x2；S4、将x2输入到β‑注意力变分自编码器β‑AttVAE中，得到解耦特征x3，将其输入到softmax分类器中进行分类；S5、构建联合约束损失模型Loss，该损失由交叉熵损失L1、Arcface损失L2与R‑drop正则化项L3共同组成，Loss＝L1+L2+L3；S6、基于步骤S5所构建的联合约束损失模型，利用梯度反向传播算法优化步骤S2、S3、S4所构建网络模型的参数；S7、将测试集输入训练好的网络中，得到最终的情感标签。本发明可以提高语音情感识别率。
一种基于注意力编码器特征网络语音情感识别方法

[发明专利]一种多人说话场景下音视频识别模型训练及识别方法-CN202310645108.5在审
发明人：赵晴 -专利权人：镁佳（北京）科技有限公司
申请日： 2023-06-01 - 公布日： 2023-09-15 - 主分类号： G10L15/06 文献下载
摘要：本发明提供了一种多人说话场景下音视频识别模型训练及识别方法，模型训练方法包括：获取多人说话场景下对应的多个视频数据和单个音频数据，对其进行混合得到训练数据；将训练数据输入预设模型中，得到多个视频数据对应的预测矩阵和CTC损失函数；使用主成分分析方法提取预测矩阵的特征矩阵，根据特征矩阵计算得到KL散度损失函数；根据CTC损失函数和KL散度损失函数计算预设模型的损失函数；利用训练数据循环迭代训练预设模型，直至预测模型的损失函数收敛，得到最优模型。本发明提供的多人说话场景下音视频识别模型训练及识别方法，利用多个视频数据与音频数据混合的方式训练模型，极大提升了多人说话场景下，对唤醒人的语音识别效果。
一种说话场景视频识别模型训练方法

[发明专利]领域自适应框架的训练方法、系统、电子设备和存储介质-CN202310661624.7在审
发明人：谭天;邵航;钱彦旻 -专利权人：思必驰科技股份有限公司
申请日： 2023-06-06 - 公布日： 2023-09-15 - 主分类号： G10L15/06 文献下载
摘要：本发明实施例提供一种领域自适应框架的训练方法、系统、电子设备和存储介质。该方法包括：利用领域自适应框架的编码器确定训练语音的隐层特征；将隐层特征输入至领域自适应框架的解码器；固定判别器，基于迁移器确定出隐层特征在固定判别器预测的第一领域下的第一预测识别解码结果，基于训练语音的基准识别解码结果以及第一预测识别解码结果对迁移器进行训练；基于训练后的迁移器确定出隐层特征在判别器预测的第二领域下的第二预测识别解码结果，基于训练语音的基准识别解码结果以及第二预测识别解码结果对判别器进行训练。本发明实施例将判别器和迁移器分别训练优化，使优化后的判别器和优化器联合起来达到更好的性能。
领域自适应框架训练方法系统电子设备存储介质

[发明专利]语音唤醒模型的更新方法、系统和介质-CN202310762127.6有效
发明人：孙宇嘉;陈博;付振;王明月;何金鑫;梁小明;王紫烟 -专利权人：中国第一汽车股份有限公司;一汽（南京）科技开发有限公司
申请日： 2023-06-27 - 公布日： 2023-09-15 - 主分类号： G10L15/06 文献下载
摘要：本发明公开了一种语音唤醒模型的更新方法、系统和介质。该方法包括：获取计算节点集合中每个计算节点对应的私有模型和测试数据库；其中，所有计算节点位于同一个区域内；按照预设融合算法对私有模型进行融合，得到对应的目标增强模型；将测试数据库中的测试数据分别输入至每个私有模型和目标增强模型，得到对应的第一实际唤醒准确率和第二实际唤醒准确率；基于第一实际唤醒准确率、第二实际唤醒准确率和唤醒准确率差值阈值对每个计算节点的私有模型进行更新。本发明实现了通过处于同一个区域内的多个计算节点对自身实际工况下创建的私有数据库进行共享，并采用这些数据对基础模型进行增量训练，从而提升了在噪声环境下语音唤醒的准确率和稳定性。
语音唤醒模型更新方法系统介质

[发明专利]一种基于大规模音频表征语言模型的音频理解与生成方法-CN202310519216.8在审
发明人：卢佳欣;朱阳燕;陈枢茜;王君 -专利权人：南通理工学院
申请日： 2023-05-09 - 公布日： 2023-09-12 - 主分类号： G10L15/06 文献下载
摘要：本发明公开了一种基于大规模音频表征语言模型的音频理解与生成方法，包括音频输入；对输入的音频数据进行表征编码；形成的表征编码通过大规模音频表征模型进行理解和生成；通过表征解码得到基于音频输入的音频输出。代替文本进行大规模表征模型的训练，相比于传统的基于文本的大规模语言模型，该模型自动化地获取音频中除文本外的潜在信息，不受制于语言、语种甚至文字的约束，支持更自然的口语化和情感化的智能交互。
一种基于大规模音频表征语言模型理解生成方法

[发明专利]语音识别方法、语音识别模型的训练方法、装置及设备-CN202310591618.9在审
发明人：易澄 -专利权人：北京达佳互联信息技术有限公司
申请日： 2023-05-23 - 公布日： 2023-09-12 - 主分类号： G10L15/06 文献下载
摘要：本公开关于一种语音识别方法、语音识别模型的训练方法、装置及设备，该方法包括：获取样本音频以及样本音频中的第一样本音频对应的标注文本；基于第一样本音频和标注文本，对初始语音识别模型进行联合预训练，得到第一语音识别模型；基于样本音频对第一语音识别模型进行参数调整训练，得到训练好的语音识别模型。本公开实施例仅用部分样本音频对应的标注文本作为模型中间层的监督信号进行监督预训练，并同时对语音识别模型进行自监督预训练，此种联合预训练帮助模型同时学习到不同维度的发音特征，使得模型在正式训练中更快更好地学习音频特征，提升了语音识别模型的训练效率，并且提升了语音识别模型在应用侧语音识别的准确性。
语音识别方法模型训练装置设备

[发明专利]语音识别模型的调整方法、装置与电子设备-CN202210211184.0在审
发明人：雷延强;叶珑 -专利权人：广州视源电子科技股份有限公司;广州视源人工智能创新研究院有限公司
申请日： 2022-03-03 - 公布日： 2023-09-12 - 主分类号： G10L15/06 文献下载
摘要：本申请提供了一种语音识别模型的调整方法、装置与电子设备。该方法包括：获取语音数据库中的音频数据，得到不包括命令词的第一初始音频数据和包括命令词的第二初始音频数据；对第一初始音频数据进行处理，得到与第一初始音频数据不同的音频处理数据；采用初始语音识别模型对音频处理数据进行命令词识别，得到用于表征对应音频处理数据的识别结果，包括命令词的音频处理数据构成负样本数据；根据至少部分第二初始音频数据和负样本数据，至少对初始语音识别模型进行训练，得到目标语音识别模型。该方法中，挑选出发生误识别的音频处理数据，从而构成负样本数据，使得模型训练的样本数据量增大，从而使得目标语音识别模型更加准确。
语音识别模型调整方法装置电子设备

[发明专利]数据选取方法、装置、电子设备及存储介质-CN202310521052.2在审
发明人：黎荣晋;张伟彬;陈东鹏;李亚桐 -专利权人：深圳市声扬科技有限公司
申请日： 2023-05-10 - 公布日： 2023-09-12 - 主分类号： G10L15/06 文献下载
摘要：本申请提供一种数据选取方法、装置、电子设备及存储介质，该数据选取方法包括：获取训练文件和训练文件对应的收敛值，基于收敛值构建多个训练样本集，基于测试集对分别经过各训练样本集训练后的模型进行测试，获得各训练样本集对应的错误率；基于各训练样本集对应的错误率选取目标训练样本集，并基于选取的目标训练样本集从N个训练文件中选取目标训练文件，以利用选取的目标训练文件进行模型训练得到训练后的数据处理模型；本方法通过综合考虑收敛值和错误率对目标训练文件的选取，实现了利用测试集的识别结果来指导目标训练文件的选取，使得利用选取的目标训练文件训练后的模型在识别阶段的识别准确度和识别效率提高。
数据选取方法装置电子设备存储介质

[发明专利]一种唤醒、语音识别模型训练方法及装置-CN202010091382.9有效
发明人：陈天峰;冯大航;陈孝良;常乐 -专利权人：北京声智科技有限公司
申请日： 2020-02-13 - 公布日： 2023-09-12 - 主分类号： G10L15/06 文献下载
摘要：本申请涉及计算机技术领域，尤其涉及一种唤醒、语音识别模型训练方法及装置，获取唤醒语音；根据已训练的语音识别模型，以所述唤醒语音为输入参数，识别所述唤醒语音中是否包含预设唤醒词，获得所述唤醒语音中是否包含预设唤醒词的概率得分，其中，所述语音识别模型为根据语音样本集通过迭代训练获得的，所述语音样本集中至少包括目标用户的目标唤醒词语音样本，所述目标用户为VIP用户；若确定所述概率得分大于或等于预设概率得分阈值，则确定唤醒，这样，能够提高目标用户对智能设备唤醒的效果。
一种唤醒语音识别模型训练方法装置

[发明专利]声学模型优化方法及装置，电子设备-CN202011556009.2有效
发明人：韩雨;李健;陈明;武卫东 -专利权人：北京捷通华声科技股份有限公司
申请日： 2020-12-24 - 公布日： 2023-09-12 - 主分类号： G10L15/06 文献下载
摘要：本发明提供了一种声学模型优化方法及装置，电子设备，其中，所述声学模型优化方法包括：制备预设数量的语音训练样本；依据预设网络层数、每层结点数构建声学模型中的编码器组件和解码器组件；为所述解码器组件包含的各层解码器建立残差连接；依据所述语音训练样本，对构建的所述声学模型进行训练，得到优化后的声学模型。本发明提供的声学模型优化方法所优化的声学模型，每一层解码器的信息都得到充分得到利用，能够提高声学模型的识别率。
声学模型优化方法装置电子设备

[发明专利]语音处理方法及电子设备-CN202310561019.2在审
发明人：董倩倩;许晨;王明轩;高汝霆 -专利权人：北京有竹居网络技术有限公司
申请日： 2023-05-17 - 公布日： 2023-09-08 - 主分类号： G10L15/06 文献下载
摘要：本公开涉及语音处理方法、装置、电子设备、计算机可读存储介质和计算机程序产品。该方法包括：获取经训练的语音翻译模型，其中经训练的语音翻译模型包括声学编码器和文本编码器，其中声学编码器和/或文本编码器包括在相邻的第一层与第二层之间的中间CTC模块，中间CTC模块用于基于第一层的输出以及词嵌入矩阵来确定第二层的输入；以及将待处理的源语言语音输入到经训练的语音翻译模型，得到对应的目标语言文本。以此方式，该语音翻译模型通过在声学编码器和/或文本编码器中引入两个相邻层之间的中间CTC模块，将预测感知编码整合到编码信息中，能够解决CTC固有的独立假设问题，因此，能够提升语音翻译的处理的性能。
语音处理方法电子设备

[发明专利]一种关键词识别方法及系统-CN202310526019.9在审
发明人：张明;杜文强 -专利权人：常州分音塔科技有限公司
申请日： 2023-05-11 - 公布日： 2023-09-08 - 主分类号： G10L15/06 文献下载
摘要：本发明提供了一种关键词识别方法及系统，方法包括分别构建基于self‑attention机制的语音识别模型、关键词编码模型及说话人信息编码模型；基于一般音频数据计算语音识别模型的第一损失函数值；以及，基于关键词文本数据及说话人音频数据计算关键词编码模型及说话人信息编码模型的第二损失函数值；利用第一损失函数值训练语音识别模型；以及，利用第二损失函数值联合训练语音识别模型、关键词编码模型及说话人信息编码模型；直至模型收敛，得到训练好的联合识别模型；利用联合识别模型进行关键词识别，得到基于特定说话人的关键词识别结果。通过本发明，可以有效的抓取语音流中特定说话人呼叫的关键词，大大降低误唤醒率，且关键词的数量不受限制。
一种关键词识别方法系统