“程路遥”申请（专利权）人搜索_中国专利权人_发明人_技术持有人_科研专家_钻瓜专利网

钻瓜专利网为您找到相关结果9个，建议您升级VIP下载更多相关专利

[发明专利]声纹特征提取方法、说话人识别方法、模型训练方法及装置-CN202310571244.4在审
发明人：陈亚峰;郑斯奇;王绘;程路遥 -专利权人：阿里巴巴（中国）有限公司
申请日： 2023-05-18 - 公布日： 2023-09-05 - 主分类号： G10L17/02 文献下载
摘要：本申请实施例公开了一种声纹特征提取方法、说话人识别方法、模型训练方法及装置。主要技术方案包括：获取包含语音的音频段；提取音频段的频谱特征；将音频段的频谱特征输入声纹提取模型，获取声纹提取模型输出的声纹特征；其中，声纹提取模型包括卷积神经网络层和池化全连接层；卷积神经网络层包括一个以上串连的基础模块，基础模块对输入该基础模块的特征进行不同通道维度的特征提取和融合，得到该基础模块输出的特征；利用最后一个基础模块输出的特征得到卷积神经网络层输出的特征；池化全连接层对卷积神经网络层输出的特征进行池化和全连接处理，得到声纹特征。通过本申请能够提升提取的声纹特征的准确性，提高声纹提取模型的泛化性能。
声纹特征提取方法说话识别模型训练装置

[发明专利]说话人转换点的检测方法、训练检测模型的方法及装置-CN202310085306.0在审
发明人：王绘;郑斯奇;陈亚峰;程路遥 -专利权人：阿里巴巴达摩院（杭州）科技有限公司
申请日： 2023-01-11 - 公布日： 2023-08-01 - 主分类号： G10L17/22 文献下载
摘要：本申请实施例公开了一种说话人转换点的检测方法、训练检测模型的方法及装置，涉及人工智能和语音处理技术。其中方法包括：将待检测音频切分成两个以上的预设时长的音频段；依据从各音频段中提取的声纹特征对两个以上的音频段进行聚类处理，得到两个以上的类簇；从两个以上的音频段中确定一个以上的候选段对，各候选段对包括相邻的两个音频段且该相邻的两个音频段属于不同的类簇；将候选段对对应的帧序列输入转换点检测模型，获取转换点检测模型预测的帧序列中各帧对应的说话人标签，转换点检测模型基于深度学习模型预先训练得到；利用帧序列中各帧对应的说话人标签，确定说话人转换点信息。本申请能够提高说话人转换点检测的准确性。
说话转换检测方法训练模型装置

[发明专利]声纹特征提取方法、说话人识别方法、模型训练方法及装置-CN202310157038.9在审
发明人：王绘;郑斯奇;程路遥;陈亚峰 -专利权人：阿里巴巴达摩院（杭州）科技有限公司
申请日： 2023-02-20 - 公布日： 2023-06-09 - 主分类号： G10L17/02 文献下载
摘要：本申请实施例公开了一种声纹特征提取方法、说话人识别方法、模型训练方法及装置。主要技术方案包括：获取包含语音的音频段；提取音频段的频谱特征输入声纹提取模型。其中声纹提取模型的第一卷积处理层包括一个以上串连的第一卷积处理模块，第一卷积处理模块包括多个串连的基础模块；基础模块对输入该基础模块的特征进行降维处理，得到第一特征；对第一特征进行至少一种粒度的池化处理，并对池化处理的结果进行卷积处理，得到第二特征；以及对第一特征进行卷积处理得到第三特征；对第二特征和第三特征进行融合处理，得到该基础模块输出的特征；池化层对第一卷积处理层输出的特征进行池化处理，得到声纹特征。本申请能够提升声纹特征提取的准确性。
声纹特征提取方法说话识别模型训练装置

[发明专利]发音对象识别、会议中的说话人识别方法以及装置-CN202211675795.7在审
发明人：陈亚峰;郑斯奇;王绘;程路遥 -专利权人：阿里巴巴达摩院（杭州）科技有限公司
申请日： 2022-12-26 - 公布日： 2023-05-30 - 主分类号： G10L17/04 文献下载
摘要：本说明书实施例提供发音对象识别、会议中的说话人识别方法以及装置，其中发音识别方法包括：获取待识别的语音数据；将语音数据输入预先训练的声纹识别模型，确定语音数据对应的目标发音对象，该声纹识别模型为利用无标签语音样本对指定模型进行自监督训练得到，自监督训练中采用的损失包括第一损失和第二损失，第一损失基于同一批次的多个无标签语音样本分别对应的发音对象的特征差异确定，第二损失基于无标签语音样本对应的发音对象的对象特征确定。如此，使用无标签语音样本对模型进行自监督训练，降低了数据成本和人力成本，提高了模型训练的效率，并且能够确保同一批次的不同发音对象的对象特征的多样性，降低了模型坍塌问题出现的可能性。
发音对象识别会议中的说话方法以及装置

[发明专利]音频信号处理方法、装置、设备及存储介质-CN202310096031.0在审
发明人： 程路遥;郑斯奇;陈亚峰;王绘 -专利权人：阿里巴巴（中国）有限公司
申请日： 2023-01-18 - 公布日： 2023-05-26 - 主分类号： G10L15/20 文献下载
摘要：本公开涉及一种音频信号处理方法、装置、设备及存储介质。本公开通过从语音识别结果中获取局部文本内容，并对局部文本内容进行标注，局部文本内容的标注结果用于表示局部文本内容是否是一段对话。根据语音识别结果，从音频信号中获取多个音频片段，并提取每个音频片段的音色信息。进一步，根据局部文本内容的标注结果、以及多个音频片段分别的音色信息，生成包含说话人标签的语音识别结果。由于本实施例结合了文本模态的信息例如局部文本内容的标注结果、以及音频模态的信息例如多个音频片段分别的音色信息，因此，相比于现有技术中只使用语音单模态信息而言，本实施例结合多模态信息生成的包含说话人标签的语音识别结果更加精准。
音频信号处理方法装置设备存储介质

[实用新型]一种动力外骨骼-CN202320239289.7有效
发明人：郝佳福;谷博威;王渭斌;任雨薇;程路遥;李超;邢添骏;冯彭雁;王华杰;张艳聪;申佳苗;牛婷;冀里萃 -专利权人：晋中学院
申请日： 2023-02-17 - 公布日： 2023-05-05 - 主分类号： B25J9/00 文献下载
摘要：本实用新型涉及外骨骼技术领域，且公开了一种动力外骨骼，包括第一连接杆和第二连接杆，所述第一连接杆和第二连接杆上均固定安装有穿戴套，所述第一连接杆的底部固定安装有第一安装板，所述第一安装板上转动设置有转动轴，所述转动轴的末端固定安装有多棱柱，所述多棱柱的外径小于转动轴的直径，所述多棱柱上活动套设有第二安装板，所述第二安装板固定安装在第二连接杆的顶部；本实用新型提供的动力外骨骼，传动装置全部设置在第一安装板与第二安装板之间，结构更加的紧凑，体积更小，驱动电机安装在第一连接杆的侧面，占位面积小，不会影响到第一连接杆的正常穿戴，进而能够有效实现外骨骼的轻量化。
一种动力骨骼

[实用新型]一种仿生蜘蛛行走式家庭监控-CN202223213600.5有效
发明人：刘浩宇;席红霞;梁钊源;雷榕;谭金丹;蒙金海;罗权益;许浩民;黄必双;梁祥东;苏庭楷;程路遥;黄带业 -专利权人：北部湾大学
申请日： 2022-12-01 - 公布日： 2023-03-28 - 主分类号： H04N7/18 文献下载
摘要：本实用新型公开了一种仿生蜘蛛行走式家庭监控，包括移动底座和设置在移动底座上的头部外壳，头部外壳的表面固定安装有高清摄像头，高清摄像头安装在头部外壳前中心，移动底座包括上盖板和下盖板，所述上盖板的顶部与头部外壳的底部固定连接，所述上盖板的底部通过连接杆与下盖板的顶部固定连接，所述下盖板顶部的四周固定安装有旋转舵机，所述旋转舵机输出轴的顶部固定安装有电机固定箱，本实用新型涉及机器人技术领域。该仿生蜘蛛行走式家庭监控，通过简化机械结构，运行流畅，增大机器使用寿命和资源利用率，且结构紧凑设计，整体简单，外观精美无尖锐部位，能作为移动家庭移动监控的同时成为小孩玩具。
一种仿生蜘蛛行走家庭监控

[发明专利]一种动力外骨骼-CN202210954825.1在审
发明人：郝佳福;谷博威;王渭斌;程路遥;任雨薇;李超;邢添骏;冯彭雁;高康淇;牛婷;冀里萃 -专利权人：郝佳福;谷博威;王渭斌
申请日： 2022-08-10 - 公布日： 2022-11-01 - 主分类号： B25J9/00 文献下载
摘要：本发明公开了一种动力外骨骼，属于外骨骼技术领域，包括腰板，所述腰板的上端转动连接有背板，所述背板的后端安装有安装板，所述安装板的后端对称安装有机械臂。本发明使用时，通过采集贴片采集表面肌肉电信号，然后将表面肌肉电信号转换数字信号，同时会将数字信号传送到控制主板上，控制主板接受到信号后便会控制电磁气动阀给执行结构提供动力源，从而使机械臂作出动作，通过此种方式当在接到数字信号后，会对执行结构进行指令操作，执行结构接收到指令后会进行收缩运动，驱动整个设备，通过此种方式可大大提高对外骨骼的可操作性，进而增加了外骨骼在使用过程中的灵活性。
一种动力骨骼

[发明专利]语音识别方法、装置、设备、存储介质及程序产品-CN202111135089.9在审
发明人： 程路遥;孙思宁 -专利权人：腾讯科技（深圳）有限公司
申请日： 2021-09-27 - 公布日： 2022-04-08 - 主分类号： G10L17/02 文献下载
摘要：本申请公开了一种语音识别方法、装置、设备、存储介质及程序产品，涉及人工智能领域。该方法包括：获取语音信号流；提取语音序列嵌入特征；对语音序列嵌入特征进行融合，得到融合特征；对融合特征进行递归估计，得到说话人嵌入特征；基于说话人嵌入特征对语音序列嵌入特征进行说话人识别，得到说话人识别结果。在对语音进行说话人识别从而生成说话人日志的过程中，通过对融合特征进行递归估计，得到各个说话人分别对应的说话人嵌入特征，从而通过注意力机制得到说话人识别结果，使得所有的参数都可以利用到解码的过程中，从而提高了对语音进行说话人识别的准确率。本申请实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。
语音识别方法装置设备存储介质程序产品

1
共 9 条