“曾孙禄”申请（专利权）人搜索_中国专利权人_发明人_技术持有人_科研专家_钻瓜专利网

钻瓜专利网为您找到相关结果2个，建议您升级VIP下载更多相关专利

[发明专利]一种语音状态识别方法和装置-CN202310505732.5在审
发明人： 曾孙禄;何晓冬 -专利权人：京东科技信息技术有限公司
申请日： 2023-05-06 - 公布日： 2023-07-28 - 主分类号： G10L15/06 文献下载
摘要：本发明公开了一种语音状态识别方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括获取具有状态标签的语音数据，输入第一模型，得到多个特征向量；对多个特征向量进行聚类分析，对相同类别的多个特征向量生成相同的伪标签，得到对应的伪标签序列；将不具有状态标签的语音数据输入至第二模型，以伪标签序列为目标值对第二模型进行训练；从训练好的第二模型中提取语音预训练模型，连接语音预训练模型、池化层和全连接层，得到第三模型，将语音数据输入至第三模型以进行训练；采集语音波形，输入训练好的第三模型，根据输出内容确定输入数据的状态信息。从而，本发明的实施方式能够解决现有语音状态识别模型精度低且效率不理想的技术问题。
一种语音状态识别方法装置

[发明专利]一种音频数据处理方法、系统、存储介质及电子设备-CN202310143488.2在审
发明人：丁国宏;曾孙禄 -专利权人：京东科技信息技术有限公司
申请日： 2023-02-10 - 公布日： 2023-05-23 - 主分类号： G10L21/0272 文献下载
摘要：本申请公开了一种音频数据处理方法、系统、存储介质及电子设备，通过预设分帧方式对获取到的音频信号进行分帧得到预设长度的音频序列，通过预设识别模型对音频序列进行识别处理，得到目标语音特征，通过预设声纹分割聚类模型对目标语音特征进行聚类处理，得到声纹分割聚类结果。通过上述方案，从得到的音频序列中抽取出目标语音特征，相比简单的fbank特征，目标语音特征中包含了说话人属性区分信息，因此可以更好实现说话人语音分割的任务，对目标语音特征进行聚类，得到多个说话人的音频中区分出不同说话人所对应的音频片段的结果，提高在多个说话人的业务场景下分辨出语音中每个时间点是谁在说话的识别效果。
一种音频数据处理方法系统存储介质电子设备