“钱彦旻”申请（专利权）人搜索_中国专利权人_发明人_技术持有人_科研专家_钻瓜专利网

钻瓜专利网为您找到相关结果109个，建议您升级VIP下载更多相关专利

[发明专利]一种基于深度学习声纹识别的困难气道评估方法及装置-CN202110848800.9有效
发明人：夏明;姜虹;钱彦旻;周韧;曹爽;周之恺;徐天意;王杰;金晨昱;裴蓓 -专利权人：上海交通大学医学院附属第九人民医院;上海交通大学
申请日： 2021-07-27 - 公布日： 2023-10-03 - 主分类号： G10L25/03 文献下载
摘要：本发明涉及一种基于深度学习声纹识别的困难气道评估方法及装置，方法包括以下步骤：获取患者的语音数据；对所述语音数据进行特征提取，得到声学特征、声纹特征和语音识别特征；构建基于语音技术的困难气道分类器，通过训练好的困难气道分类器对提取的所述声学特征、声纹特征和语音识别特征进行分析并对困难气道严重程度进行评分，得到困难气道的评估结果。本发明能够精准的对临床麻醉中困难气道做出预警。
一种基于深度学习声纹识别困难评估方法装置

[发明专利]领域自适应框架的训练方法、系统、电子设备和存储介质-CN202310661624.7在审
发明人：谭天;邵航;钱彦旻 -专利权人：思必驰科技股份有限公司
申请日： 2023-06-06 - 公布日： 2023-09-15 - 主分类号： G10L15/06 文献下载
摘要：本发明实施例提供一种领域自适应框架的训练方法、系统、电子设备和存储介质。该方法包括：利用领域自适应框架的编码器确定训练语音的隐层特征；将隐层特征输入至领域自适应框架的解码器；固定判别器，基于迁移器确定出隐层特征在固定判别器预测的第一领域下的第一预测识别解码结果，基于训练语音的基准识别解码结果以及第一预测识别解码结果对迁移器进行训练；基于训练后的迁移器确定出隐层特征在判别器预测的第二领域下的第二预测识别解码结果，基于训练语音的基准识别解码结果以及第二预测识别解码结果对判别器进行训练。本发明实施例将判别器和迁移器分别训练优化，使优化后的判别器和优化器联合起来达到更好的性能。
领域自适应框架训练方法系统电子设备存储介质

[发明专利]说话人验证模型的量化方法、电子设备和存储介质-CN202310675288.1在审
发明人：俞凯;刘贝;王浩宇;钱彦旻 -专利权人：思必驰科技股份有限公司
申请日： 2023-06-08 - 公布日： 2023-09-05 - 主分类号： G10L19/038 文献下载
摘要：本发明公开说话人验证模型的量化方法、电子设备和存储介质，其中，一种说话人验证模型的量化方法，包括：获取说话人验证模型所有层的实值权重；将所述所有层的实值权重映射到固定整数集；或动态确定每一层的实值权重对应的二值权重，以更好地匹配实值权重分布。本申请实施例的方法提出了两种全新的量化策略，即静态量化和自适应量化。进一步的，对于静态量化，本申请实施例提出了权重正则化技术，以保持最大的信息熵，减少信息的损失。进一步地，本申请实施例还提出了一种自适应量化方案，可以动态确定每一层的最佳二值，以实现与实值权重分布更好的对齐。
说话验证模型量化方法电子设备存储介质

[发明专利]可逆神经网络的改进方法、电子设备和存储介质-CN202310675135.7在审
发明人：俞凯;刘贝;钱彦旻 -专利权人：思必驰科技股份有限公司
申请日： 2023-06-08 - 公布日： 2023-09-05 - 主分类号： G06N3/084 文献下载
摘要：本发明公开可逆神经网络的改进方法、电子设备和存储介质，其中，一种可逆神经网络的改进方法，其中，所述可逆神经网络包括多个残差块，所述方法包括：当所述残差块的跨度为1时，确定所述残差块为可逆操作符；对于可逆操作符，通过在向后传递中调用反函数来恢复输入激活，其中，每一层的输入激活都可以从下一层的输入激活中重建，从而在前向传递过程中，能够通过丢弃中间的输入激活来节省图形处理单元内存成本。从而本申请实施例的方法可以通过对残差块进行分类，对其中跨度为1的残差块通过在向后传递中调用反函数来恢复输入激活，从而可以不用存储中间的输入激活，进而能够极大节省图形处理单元GPU的内存成本。
可逆神经网络改进方法电子设备存储介质

[发明专利]神经网络模型量化压缩方法、电子设备和存储介质-CN202310133253.5在审
发明人： 钱彦旻;王浩宇;刘贝;吴逸飞;陈正阳 -专利权人：思必驰科技股份有限公司
申请日： 2023-02-17 - 公布日： 2023-08-25 - 主分类号： G06N3/082 文献下载
摘要：本发明公开神经网络模型量化压缩方法、电子设备和存储介质，其中，方法包括：对目标预训练模型进行参数扩充，添加量化压缩所需要的参数；对所述参数使用交替方向乘子法，求得不同固定压缩比下的多个最佳的量化压缩模型参数，所述多个最佳的量化压缩模型参数对应于多个压缩模型；对所述多个压缩模型的不同组成部分进行基于Hessian矩阵的敏感度分析，用于进行混合精度量化压缩搜索，其中，混合精度量化压缩搜索能够提供在某一压缩比下最优的模型组合方法；获取最终基于混合精度搜索的最优量化压缩模型。
神经网络模型量化压缩方法电子设备存储介质

[发明专利]基于知识蒸馏和量化的预训练模型压缩方法及系统-CN202310610091.X在审
发明人：俞凯;邵航;王巍;刘贝;龚勋;王浩宇;钱彦旻 -专利权人：思必驰科技股份有限公司
申请日： 2023-05-26 - 公布日： 2023-08-22 - 主分类号： G06N3/0495 文献下载
摘要：本发明实施例提供一种基于知识蒸馏和量化的预训练模型压缩方法及系统。该方法包括：将预训练模型确定为教师模型，对教师模型的预测层和中间隐层进行量化操作，确定出教师模型与用于表示压缩后模型的学生模型的量化损失；通过量化损失确定教师模型至学生模型的隐层匹配映射函数，基于隐层匹配映射函数从教师模型中动态选择学生模型需要学习的蒸馏层，并确定对应的蒸馏损失；至少基于量化损失以及蒸馏损失对学生模型进行量化训练。本发明实施例在知识蒸馏和量化互相指导的过程中通过量化损失来指导蒸馏层的选取，选取对学生模型最适合量化的层来进行蒸馏，通过蒸馏损失来指导量化层的选取，选取最适合量化的层来进行量化，保证性能没有损失。
基于知识蒸馏量化训练模型压缩方法系统

[发明专利]弱监督语音预训练方法、电子设备和存储介质-CN202310590505.7在审
发明人：俞凯;钱彦旻;张王优 -专利权人：思必驰科技股份有限公司
申请日： 2023-05-24 - 公布日： 2023-08-08 - 主分类号： G10L21/0208 文献下载
摘要：本发明公开弱监督语音预训练方法、电子设备和存储介质，其中，一种弱监督语音预训练方法，用于预训练模型，其中，所述预训练模型的输入包括注册语音和主输入语句，所述方法包括：在预训练过程中引入目标说话人的注册语音作为辅助的说话人身份信息；在所述主输入语句中随机混合干扰说话人语音，以所述主输入语句的离散标签作为训练目标，采用掩蔽语音预测作为训练准则训练所述预训练模型，其中，所述主输入语句与所述注册语音属于同一目标说话人。本申请实施例由于使用说话人注册语音，而不是使用说话人嵌入表示，可以避免预训练模型产生对特定说话人领域的偏置，避免对特定外部说话人模型的依赖，减少对预训练模型的泛化性和鲁棒性的影响。
监督语音训练方法电子设备存储介质

[发明专利]语音模型的自适应量化压缩方法、系统和电子设备-CN202310572514.3在审
发明人：俞凯;王浩宇;刘贝;吴逸飞;钱彦旻 -专利权人：思必驰科技股份有限公司
申请日： 2023-05-19 - 公布日： 2023-08-01 - 主分类号： G10L19/16 文献下载
摘要：本发明实施例提供一种语音模型的自适应量化压缩方法、系统和电子设备。该方法包括：对语音模型进行基于矩阵的敏感度分析，基于分析出的语音模型内神经网络不同层级对量化的敏感度差异，对语音模型进行混合精度量化压缩搜索，确定语音模型在设定压缩比下的参数权重分布；基于参数权重分布对语音模型的参数进行分隔处理，得到多个分隔区间，对分隔区间进行聚类，得到各分隔区间的量化目标值；利用各分隔区间的量化目标值对语音模型进行多阶段微调自适应量化压缩，得到轻量化语音模型。本发明实施例，在模型性能没有明显下降的基础上，减小了模型的大小，使其可以应用于存储空间受限的轻量型的设备中。
语音模型自适应量化压缩方法系统电子设备

[发明专利]针对多口音语音识别的方法和装置-CN202110594476.2有效
发明人： 钱彦旻;龚勋;卢怡宙;周之恺 -专利权人：思必驰科技股份有限公司
申请日： 2021-05-28 - 公布日： 2023-07-14 - 主分类号： G10L15/07 文献下载
摘要：本发明公开针对多口音语音识别的方法和装置，其中，一种针对多口音语音识别的方法，其中，对于单语音识别系统，在编码阶段添加自适应层用于学习与口音有关的特征信息，包括：对于每个编码器块将口音表征向量作为一个指导信息，输入到所述自适应层中，用于指导所述自适应层中的转换函数，其中，一个编码器有多个串联的编码器块；将口音无关特征也同时输入到所述自适应层中；以及将所述口音无关特征和所述口音表征向量混合形成口音相关特征。本申请实施例进一步探讨了适应层的注入位置、口音基数和不同类型的口音基数，以实现更好的口音适应。
针对口音语音识别方法装置

[发明专利]命令词识别方法及电子设备和存储介质-CN202310315247.1在审
发明人：严杰;潘敏;陆一帆;钱彦旻 -专利权人：思必驰科技股份有限公司
申请日： 2023-03-28 - 公布日： 2023-06-27 - 主分类号： G10L15/08 文献下载
摘要：本发明公开一种命令词识别方法、电子设备和存储介质，其中方法包括：获取用户输入的音频，对所述音频进行解码得到解码结果；若所述解码结果匹配到命令词表中的某一命令词，查找所述命令词表中是否存在与所述某一命令词的字符串互为前缀子父串的其他命令词；若所述命令词表中存在与所述某一命令词的字符串互为前缀子父串的其他命令词，则根据前缀子父串对应的解码配置进行后续解码。本发明实施例通过判断命令词词表中是否含有前缀子父串，如果含有该种子父串则解码器中使用不同解码配置，可以实现减少父串串子串的错误，同时没有增加计算资源。
命令识别方法电子设备存储介质

[发明专利]无监督自适应说话人验证模型训练方法、电子设备和存储介质-CN202310077926.X在审
发明人： 钱彦旻;韩冰;陈正阳;刘贝 -专利权人：思必驰科技股份有限公司
申请日： 2023-02-06 - 公布日： 2023-06-23 - 主分类号： G10L17/04 文献下载
摘要：本发明公开无监督自适应说话人验证模型训练方法、电子设备和存储介质，其中，方法包括：在有标签的源域数据上使用预设损失函数训练一个说话人验证模型；利用训练好的所述说话人验证模型提取无标签的目标域数据的说话人嵌入，并估计伪标签。本申请实施例的方法，通过利用源域有标签数据预训练一个模型，并通过对无标签目标域数据进行聚类来生成伪标签。然后，基于生成的伪标签来进行联合微调，使模型适应到目标域。
监督自适应说话验证模型训练方法电子设备存储介质

[发明专利]视听语音分离模型的训练方法、电子设备和存储介质-CN202211573033.6在审
发明人： 钱彦旻;吴逸飞;李晨达 -专利权人：思必驰科技股份有限公司
申请日： 2022-12-08 - 公布日： 2023-06-23 - 主分类号： G10L21/0272 文献下载
摘要：本发明实施例提供一种视听语音分离模型的训练方法、电子设备和存储介质。该方法包括：将多个说话人的混合训练音频输入至视听语音分离模型，得到多个说话人的预测频谱图；确定预测频谱图的预测说话人视听特征以及混合训练音频的参考频谱图的参考说话人视听特征；基于预测说话人视听特征以及参考说话人视听特征确定的跨模态损失，通过交叉方向乘子法利用跨模态损失对视听语音分离模型进行混合精度量化条件的训练，得到轻量级的视听语音分离模型。本发明实施例基于交叉方向乘子法对模型进行量化调优训练出轻量级的视听语音分离模型，并且通过多模态模型能够充分利用不同模态对量化敏感度特性确保了轻量级的视听语音分离模型计算量与性能的平衡。
视听语音分离模型训练方法电子设备存储介质

[发明专利]自监督说话人验证模型训练方法、电子设备和存储介质-CN202310085281.4在审
发明人： 钱彦旻;韩冰;黄文;陈正阳 -专利权人：思必驰科技股份有限公司
申请日： 2023-02-06 - 公布日： 2023-06-09 - 主分类号： G10L17/04 文献下载
摘要：本发明公开自监督说话人验证模型训练方法、电子设备和存储介质，其中，训练方法包括第一阶段的训练和第二阶段的训练，其中，所述第一阶段的训练包括：从训练语料中随机抽取多个短段和多个长段；将所述多个短段和所述多个长段均输入学生模型，获取所述学生模型的输出分布；将所述长段输入教师模型，获取所述教师模型的输出分布；通过最小化所述学生模型的输出分布和所述教师模型的输出分布之间的交叉熵损失来鼓励短段到长段的对应关系；其中，所述教师模型和所述学生模型拥有相同的结构，更新方法不同且参数也不同，所述学生模型通过梯度下降法更新，所述教师模型通过所述学生模型参数的指数移动平均法更新。
监督说话验证模型训练方法电子设备存储介质

[发明专利]语音识别方法、系统、电子设备和存储介质-CN202310145726.3在审
发明人：谭天;钱彦旻 -专利权人：思必驰科技股份有限公司
申请日： 2023-02-21 - 公布日： 2023-06-06 - 主分类号： G10L15/22 文献下载
摘要：本发明实施例提供一种语音识别方法、系统、电子设备和存储介质。该方法包括：根据用户输入的自定义热词构建热词trie图；响应于语音信号的输入，实时将语音信号发送至热词感知语音识别模型；通过编码器确定语音信号的隐层特征；解码器对隐层特征进行实时解码，得到多条候选集束搜索路径，通过热词trie图确定各候选集束搜索路径的潜在热词嵌入，解码器基于潜在热词嵌入更新多条候选集束搜索路径的得分，直至解码出结束符为止，选择得分最高的候选集束搜索路径确定语音信号的识别结果。本发明实施例利用自定义热词构建热词trie图，在模型解码时，通过热词trie图确定对应的热词嵌入，利用潜在的热词嵌入以强化热词感知语音识别模型对热词的准确识别。
语音识别方法系统电子设备存储介质

[发明专利]标点、顺滑一体化的语音识别方法、系统和电子设备-CN202310145773.8在审
发明人：谭天;钱彦旻 -专利权人：思必驰科技股份有限公司
申请日： 2023-02-21 - 公布日： 2023-06-06 - 主分类号： G10L15/22 文献下载
摘要：本发明实施例提供一种标点、顺滑一体化的语音识别方法、系统和电子设备。该方法包括：将音频输入至识别‑标点‑顺滑一体化模型；通过编码器确定音频的隐层特征；解码器根据隐层特征依次对音频中的m个文字进行识别预测，在第n个文字识别预测之后进行第n个文字之后的标点预测以及顺滑预测，得到中间识别结果，并根据中间识别结果以及隐层特征进行第n+1个文字的识别预测、标点预测以及顺滑预测，直至预测完第m个文字为止，得到最终识别结果。本发明实施例减少计算资源的占用，可以适用于计算能力相对较弱的智能设备中，扩大长语音识别转写本地化的应用范围。
标点一体化语音识别方法系统电子设备

1
2
3
4
5
6
7
8
下一页»
尾页
共 109 条