“杨叶新”申请（专利权）人搜索_中国专利权人_发明人_技术持有人_科研专家_钻瓜专利网

钻瓜专利网为您找到相关结果7个，建议您升级VIP下载更多相关专利

[发明专利]流式语音识别的方法及对应装置-CN202211680216.8在审
发明人： 杨叶新;张仕良;宫博 -专利权人：阿里巴巴达摩院（杭州）科技有限公司
申请日： 2022-12-26 - 公布日： 2023-05-02 - 主分类号： G10L15/34 文献下载
摘要：本申请实施例公开了一种流式语音识别的方法及对应装置。其中方法包括：获取语音音频流；将利用第一时长单元对语音音频流进行分块得到的连续第一音频分块输入第一语音识别模型，得到各第一音频分块的识别结果用以展示；以及，将利用第二时长单元对语音音频流进行分块得到的连续第二音频分块输入第二语音识别模型，得到各第二音频分块的识别结果，其中第一时长单元小于第二时长单元，第二时长单元小于句子对应的音频时长；利用第二音频分块的识别结果更新对应第一音频分块的识别结果用以展示。本申请将识别结果的更新跳变限制在一个更小的范围内，从而改善了实时语音识别的显示效果，提升用户体验。
语音识别方法对应装置

[发明专利]说话者嵌入学习方法、说话者识别方法及系统-CN202010710651.5有效
发明人：俞凯;王帅;杨叶新;钱彦旻 -专利权人：思必驰科技股份有限公司
申请日： 2020-07-22 - 公布日： 2022-08-26 - 主分类号： G10L15/02 文献下载
摘要：本发明公开一种说话者嵌入学习方法，包括：对说话者语音段进行帧级别特征提取，得到多个帧级别深度特征；对所述多个帧级别深度特征进行二阶池化处理得到段级别深度特征；采用仿射层将所述段级别深度特征转换为段级别说话者嵌入。本发明实施例在将帧级别深度特征转化为段级别深度特征时采用了二阶池化处理的方式，从而不仅考虑了帧级别的说话者特征，同时还兼顾了语音片段中的动态信息，使得最终学习到的说话者嵌入能够更加准确的反应说话者特征，提升了说话者嵌入特征的质量，也将有助于基于此所进行的说话者识别任务的准确性与可靠性。
说话嵌入学习方法识别方法系统

[发明专利]说话人确认方法和装置-CN201911412555.6有效
发明人：俞凯;钱彦旻;杨叶新;王帅;龚勋 -专利权人：思必驰科技股份有限公司
申请日： 2019-12-31 - 公布日： 2022-06-03 - 主分类号： G10L17/00 文献下载
摘要：本发明公开说话人确认方法和装置，其中，一种说话人确认方法，包括将音频数据输入至通用特征提取器以提取预设特征；将提取的所述预设特征分别输入说话人分类子网络和音素分布预测子网络，其中，经过所述说话人分类子网络提取得到说话人嵌入，经过所述音素分布预测子网络提取得到文本嵌入；将所述说话人嵌入和所述文本嵌入通过合并子网络，合并得到说话人嵌入和文本嵌入的单个嵌入；以及基于所述单个嵌入进行说话人确认。
说话确认方法装置

[发明专利]语音数据增强方法和装置-CN202010721984.8有效
发明人：钱彦旻;龚勋;陈正阳;杨叶新;王帅 -专利权人：思必驰科技股份有限公司
申请日： 2020-07-24 - 公布日： 2022-04-15 - 主分类号： G10L21/02 文献下载
摘要：本发明公开语音数据增强方法和装置，其中，一种语音数据增强方法，包括：语音数据增强方法，包括：将原始干净音频和带噪音频输入至嵌入提取器中，其中，所述带噪音频包括所述原始干净音频和噪声；获取所述嵌入提取器输出的干净嵌入和噪声嵌入；计算所述干净嵌入和所述噪声嵌入之间的差值；对所述差值进行分布估计得到噪声分布拟合后的噪声嵌入。本申请实施例通过仅使用少量训练数据就可以可靠地估计所提议的NDM，与传统的增强方法相比，NDM方法可以节省时间和磁盘成本。NDM训练结果能够达到和传统增强方法相媲美的效果，甚至有时候可以超越传统方法。
语音数据增强方法装置

[发明专利]说话人验证反欺骗方法和装置-CN201910511584.1有效
发明人：俞凯;钱彦旻;杨叶新;王鸿基;丁翰林;陈正阳;王帅 -专利权人：思必驰科技股份有限公司
申请日： 2019-06-13 - 公布日： 2021-08-13 - 主分类号： G10L17/00 文献下载
摘要：本发明公开说话人验证反欺骗方法和装置，其中，一种说话人验证反欺骗方法，包括：提取待验证音频的预设特征；将提取的所述预设特征至少输入至改进的LightCNN系统中，其中，所述改进的LightCNN系统为将传统的LightCNN系统中的MFM函数替换成了ContextGate；输出所述待验证音频是否为欺骗音频。本申请的方法和装置提供的方案通过使用Context Gate来取代传统LightCNN中的MFM函数，有效地避免了过拟合问题，并且对多种欺骗攻击都获得了一致的性能提升。本申请的方案创新性地将ContextGateCNN引入到说话人验证反欺骗系统中来，并且展现出了较好的泛化能力。
说话验证欺骗方法装置

[发明专利]文本无关说话人验证方法和装置-CN201910511775.8有效
发明人：俞凯;钱彦旻;杨叶新;王帅;黄厚军 -专利权人：思必驰科技股份有限公司
申请日： 2019-06-13 - 公布日： 2021-05-25 - 主分类号： G10L17/00 文献下载
摘要：本发明公开文本无关说话人验证方法和装置，其中，一种文本无关说话人验证方法，包括：提取待验证语音的幅度特征和与所述幅度特征对应的相位特征；对所述幅度特征和所述相位特征进行处理以得到相位感知特征；对所述相位感知特征进行说话人分类以得到说话人嵌入；对所述说话人嵌入进行概率线性判断分析以得到对所述待验证语音的说话人验证结果。本申请的方法和装置提供的方案通过在深度说话人嵌入学习中结合幅度特征和相位特征，说话人验证系统的对噪声鲁棒性能够得到提升。进一步地，本申请的方案不仅针对噪声鲁棒的说话人验证系统提出了新的方案，更展现了使用相位特征来提升性能的各种可能。
文本无关说话验证方法装置

[发明专利]知识蒸馏方法和装置-CN201811645776.3有效
发明人：俞凯;钱彦旻;王帅;杨叶新 -专利权人：苏州思必驰信息科技有限公司
申请日： 2018-12-29 - 公布日： 2021-02-12 - 主分类号： G10L17/04 文献下载
摘要：本发明公开知识蒸馏方法和装置，其中，一种知识蒸馏方法，包括：在说话人嵌入学习任务中，向教师模型和学生模型中输入相同说话人的音频数据，其中，教师模型和学生模型均包括说话人嵌入提取和说话人后验概率分布预测；以教师模型的说话人嵌入提取为标准，将学生模型的说话人嵌入提取和教师模型的说话人嵌入提取的差距限制在第一预设范围内，以对学生模型进行优化；或以教师模型的说话人后验概率分布预测为标准，将学生模型的说话人后验概率分布预测和教师说话人后验概率分布预测的差距限制在第二预设范围内，以对学生模型进行优化；使用优化好的学生模型进行部署和/或预测。从而可以通过性能很好地大模型训练小模型然后部署和使用小模型。
知识蒸馏方法装置