“索宏彬”申请（专利权）人搜索_中国专利权人_发明人_技术持有人_科研专家_钻瓜专利网

钻瓜专利网为您找到相关结果26个，建议您升级VIP下载更多相关专利

[发明专利]声纹识别方法及装置-CN201811378714.0有效
发明人：赵情恩;索宏彬;雷赟 -专利权人：阿里巴巴集团控股有限公司
申请日： 2018-11-19 - 公布日： 2023-09-26 - 主分类号： G10L15/08 文献下载
摘要：本发明公开了一种声纹识别方法，包括：统计多个相似度分值的分布情况，相似度分值用于表示待识别的语音信号与预存的声纹的相似度；根据所述分布情况来调整分类阈值，分类阈值用于对相似度分值进行分类，以判断待识别的语音信号与预存的声纹是否对应于同一个用户。本发明一并公开了相应的声纹识别装置。
声纹识别方法装置

[发明专利]声纹识别系统、方法、装置及电子设备-CN201910060740.7有效
发明人：郑斯奇;索宏彬;雷赟 -专利权人：阿里巴巴集团控股有限公司
申请日： 2019-01-21 - 公布日： 2023-09-26 - 主分类号： G10L17/04 文献下载
摘要：本申请公开了声纹识别方法和装置，声纹识别系统、方法和装置，以及，音箱和服务器。其中，声纹识别方法包括：获取已标注说话者信息的第一声纹数据集和未标注说话者信息的第二声纹数据集,从所述第一声纹数据集中学习得到第一声纹识别模型,至少通过第一声纹识别模型和第二声纹数据集训练得到第二声纹识别模型，至少基于所述第二声纹识别模型识别声纹数据。采用这种处理方式，使得利用非监督训练方式自动对声纹数据进行说话者信息的标注，避免人工方式标注数据；因此，可以有效提升数据标注的效率及准确度，从而提升声纹识别的准确度，同时可以有效降低人工成本。
声纹识别系统方法装置电子设备

[发明专利]语音检测方法和装置、电子设备及计算机可读存储介质-CN202110707650.X在审
发明人：郑斯奇;索宏彬 -专利权人：阿里巴巴新加坡控股有限公司
申请日： 2021-06-24 - 公布日： 2022-12-27 - 主分类号： G10L25/78 文献下载
摘要：本申请公开了一种语音检测方法和装置、电子设备及计算机可读存储介质。该方法包括：获取由至少两个具有不同空间位置的麦克风组成的麦克风阵列采集的多个语音信号；对多个语音信号中的每一个在其接收方向上进行语音增强处理，以获得增强语音信号；将多个增强语音信号输入到预设模型，以生成语音特征序列；根据语音特征序列确定所述多个语音信号是否是来自多个声源。本申请实施例通过可以基于语音信号自身的语音特征和方位信息来生成语音特征序列，从而能够使得生成的语音特征序列更好地反映语音信号中的重叠语音特征，从而提高了重叠语音检测的准确率。
语音检测方法装置电子设备计算机可读存储介质

[发明专利]说话人识别方法和装置、电子设备及计算机可读存储介质-CN202110662960.4在审
发明人：郑斯奇;索宏彬 -专利权人：阿里巴巴新加坡控股有限公司
申请日： 2021-06-15 - 公布日： 2022-12-16 - 主分类号： G10L17/00 文献下载
摘要：本申请公开了一种说话人识别方法和装置、电子设备及计算机可读存储介质。该方法包括：获取目标音频；使用第一预设模型对目标音频进行声纹特征提取，以获得第一声纹特征；基于第一声纹特征从目标音频中获取所有与第一声纹特征相关的第一音频；使用第二预设模型对第一音频进行声纹特征提取，以获得表征目标说话人的第二声纹特征。本申请实施例通过使用第一次声纹特征提取结果来从目标音频中分离出去除了背景噪声后的混合音频，从而由于减少了大部分的背景噪声，因此使得目标说话人的声音在该混合声音中的辨识度提高，从而当再次对该混合音频进行声纹特征提取时能够更加容易地识别出目标说话人的声音，从而提高了强噪声环境下说话人识别的准确率。
说话识别方法装置电子设备计算机可读存储介质

[发明专利]音频信号处理方法、设备、系统及存储介质-CN202110235834.0在审
发明人：郑斯奇;索宏彬 -专利权人：阿里巴巴（中国）有限公司
申请日： 2021-03-03 - 公布日： 2022-09-06 - 主分类号： G10L25/51 文献下载
摘要：本申请实施例提供一种音频信号处理方法、设备、系统及存储介质。在本申请实施例中，利用麦克风阵列采集音频信号，根据麦克风阵列中每个麦克风采集到音频信号的相位差信息，生成音频信号对应的声源空间分布信息，进而根据声源空间分布信息，结合基于历史音频信号学习到的单一语音与重叠语音之间的转换关系，识别当前音频信号是否为重叠语音，相比于单通道音频，利用麦克风阵列采集的音频信号，包含了声源空间分布信息，从而可以准确地识别当前音频信号是否为重叠语音，满足产品级别的检测需求。
音频信号处理方法设备系统存储介质

[发明专利]会议发言用户定位系统、方法、装置及设备-CN202110150817.7在审
发明人：郑斯奇;索宏彬 -专利权人：阿里巴巴集团控股有限公司
申请日： 2021-02-03 - 公布日： 2022-08-19 - 主分类号： G10L17/00 文献下载
摘要：本申请公开了会议发言用户定位方法、系统、装置及设备。其中，方法包括：根据会议空间的声音信号到达麦克风阵列的空间方向信息，确定会议发言用户的位置变化信息；根据所述声音信号，判断会议发言用户在位置变化起始时间至位置变化结束时间内是否连续说话；若上述判断结果为是，则将所述位置变化信息作为会议发言用户的有效位置变化信息。采用这种处理方式，使得只有在检测到会议发言人在走动期间连续说话时，才使得通过基于空间信息的声源定位技术确定的会议发言人的位置移动信息生效，避免因噪声等干扰导致误认为是会议发言人移动的情况；因此，可以有效提升用户移动定位的准确率和实时性。
会议发言用户定位系统方法装置设备

[发明专利]音频信号处理、会议记录与呈现方法、设备、系统及介质-CN202110105959.1在审
发明人：郑斯奇;索宏彬 -专利权人：阿里巴巴集团控股有限公司
申请日： 2021-01-26 - 公布日： 2022-07-26 - 主分类号： G10L17/06 文献下载
摘要：本申请实施例提供一种音频信号处理、会议记录与呈现方法、设备、系统及介质。在本申请实施例中，针对多人发言场景的音频信号，先基于发言人变更点将音频信号切为多个音频片段，再根据多个音频片段的时长和声纹特征，对多个音频片段进行分层次聚类，识别出对应同一发言人的音频片段并添加用户标记。其中，不再单纯利用声纹特征进行聚类，而是结合了音频片段的时长和声纹特征进行分层次聚类，分层次聚类可以先对声纹特征更加稳定的音频片段进行聚类，相比于同时对所有音频片段进行聚类，分层次聚类可以减少声纹特征不稳定的音频片段带来的误差，能够更加准确地识别同一发言人对应的音频片段，提高识别的效率，用户标记结果更加准确。
音频信号处理会议记录呈现方法设备系统介质

[发明专利]身份识别方法、装置和系统-CN201811063822.9有效
发明人：赵情恩;索宏彬;刘刚;卓著;雷赟 -专利权人：阿里巴巴集团控股有限公司
申请日： 2018-09-12 - 公布日： 2022-07-08 - 主分类号： H04L9/32 文献下载
摘要：本申请公开了一种身份识别方法、装置和系统。其中，该方法包括：获取目标对象的声纹特征和第一时间戳，其中，第一时间戳用于表征获取到声纹特征时的时间；从声纹库中获取与声纹特征匹配成功的预存声纹特征和第二时间戳，其中，第二时间戳用于表征获取到预存声纹特征时的时间；基于第一时间戳和第二时间戳，确定相似度阈值；基于相似度阈值，以及声纹特征和预存声纹特征的相似度，得到目标对象的识别结果。本申请解决了现有技术中身份识别方法的识别准确率低的技术问题。
身份识别方法装置系统

[发明专利]说话人聚类方法、装置及设备-CN202210028998.0在审
发明人：郑斯奇;索宏彬 -专利权人：阿里巴巴（中国）有限公司
申请日： 2022-01-11 - 公布日： 2022-05-13 - 主分类号： G10L15/04 文献下载
摘要：本申请公开了说话人聚类方法、装置及设备。其中，所述方法包括：将待处理语音划分为多个语音片段；获取所述语音片段的说话人特征；以语音片段为结点，以说话人特征相似度为边值，构建社群网络；通过社群检测算法，根据所述社群网络，确定各说话人对应的语音片段集。采用这种处理方式，使得基于社群检测进行说话人聚类，可有效提升说话人聚类的准确率。
说话人聚类方法装置设备

[发明专利]多任务模型训练方法、处理方法、电子设备及存储介质-CN202210118975.9在审
发明人：邓憧;王雯;索宏彬 -专利权人：阿里巴巴（中国）有限公司
申请日： 2022-02-08 - 公布日： 2022-05-10 - 主分类号： G06F9/48 文献下载
摘要：本申请提供一种多任务模型训练方法、处理方法、电子设备及存储介质，该方法包括：获取用于训练语料集，训练语料集包括多任务训练语料以及多个第一训练文本，多任务训练语料包括多个第二训练文本、各个第二训练文本的文本标题以及各个第二训练文本的关键句；多任务模型包括用于输出文本标题的生成任务分支和用于输出关键句的分类任务分支，生成任务分支和分类任务分支共用一个编码器；根据多个第一训练文本，对多任务模型的编码器进行预训练；根据多任务训练语料，对预训练后的多任务模型的生成任务分支和分类任务分支进行微调，以得到训练后的多任务模型，缩短了多任务场景下的模型训练周期，提高了模型处理能力。
任务模型训练方法处理电子设备存储介质

[发明专利]音频信号处理方法、装置及电子设备-CN202011133819.7在审
发明人：郑斯奇;索宏彬 -专利权人：阿里巴巴集团控股有限公司
申请日： 2020-10-21 - 公布日： 2022-04-22 - 主分类号： G10L15/26 文献下载
摘要：本申请实施例公开了音频信号处理方法、装置及电子设备，所述方法包括对多人发言场景下采集到的音频信号进行语音识别以及声源定位；其中，在对所述音频信号进行声源定位时：获取当前信号帧及其前后目标数量的信号帧的波达方向谱图信息组成矩阵谱图，并对所述矩阵谱图进行平滑处理；根据当前信号帧对应的平滑处理后的波达方向谱图中，满足目标条件的取值对应的角度，确定所述当前信号帧的声源定位结果；根据多个信号帧的声源定位结果确定发言人变更事件的发生位置，并根据所述发言人变更事件的发生位置将语音识别得到的文本进行分隔。通过本申请实施例，能够提高会议记录的效率以及准确度，降低会议记录工作人员的工作量。
音频信号处理方法装置电子设备

[发明专利]音频信号处理方法、装置及电子设备-CN202011135534.7在审
发明人：郑斯奇;索宏彬;王宪亮 -专利权人：阿里巴巴集团控股有限公司
申请日： 2020-10-21 - 公布日： 2022-04-22 - 主分类号： G10L15/05 文献下载
摘要：本申请实施例公开了音频信号处理方法、装置及电子设备，所述方法包括：对多人发言场景下采集到的音频信号进行语音识别、声源定位以及语音端点检测；根据声源定位结果确定所述音频信号中的发言人变更时间点，所述发言人变更时间点包括：所述音频信号中发言人变更事件时刻在时间轴上的位置；根据语音端点检测结果中语音端点在时间轴上的位置，对所述发言人变更时间点进行修正；根据修正后的发言人变更时间点，将语音识别得到的文本进行分隔，得到多个文本段。通过本申请实施例，能够提高会议记录的效率以及准确度，降低会议记录工作人员的工作量。
音频信号处理方法装置电子设备

[发明专利]音频信号处理方法、装置、设备及存储介质-CN202111351380.X有效
发明人：王宪亮;索宏彬 -专利权人：阿里巴巴达摩院（杭州）科技有限公司
申请日： 2021-11-16 - 公布日： 2022-04-15 - 主分类号： G10L15/02 文献下载
摘要：本公开涉及一种音频信号处理方法、装置、设备及存储介质。本公开通过对音频信号进行分段处理得到多个音频分段，根据多个音频分段中每个音频分段的特征信息，对多个音频分段进行聚类处理，得到一个或多个第一集合。进一步，根据每个第一集合包括的音频分段的特征信息，确定每个第一集合的第一聚类中心，并且根据每个第一集合的第一聚类中心，对多个音频分段进行聚类处理，得到一个或多个第二集合，其中，同一个第二集合中的音频分段对应相同的角色标签。也就是说，在对多个音频分段进行初始聚类处理后，还可以根据每个第一集合的第一聚类中心，对多个音频分段进行再次聚类处理，从而提高了基于单通道语音的无监督角色分离的准确性。
音频信号处理方法装置设备存储介质

[发明专利]音频数据聚类方法、装置、设备及存储介质-CN202111594903.3在审
发明人：郑斯奇;索宏彬 -专利权人：阿里巴巴达摩院（杭州）科技有限公司
申请日： 2021-12-23 - 公布日： 2022-03-22 - 主分类号： G06F16/65 文献下载
摘要：本申请实施例提供了一种音频数据聚类方法、装置、设备及存储介质。音频数据聚类方法包括：获取待处理的多个音频片段；对各音频片段进行特征提取，得到对应的声纹特征；将各音频片段对应的声纹特征输入图神经网络，得到各音频片段的特征向量表示；基于各音频片段的特征向量表示，对各音频片段进行聚类。本申请实施例，提升了音频数据聚类的准确度。
音频数据方法装置设备存储介质

[发明专利]主题词确定方法、设备及存储介质-CN202210143658.2在审
发明人：邓憧;王雯;索宏彬 -专利权人：阿里巴巴达摩院（杭州）科技有限公司
申请日： 2022-02-17 - 公布日： 2022-03-15 - 主分类号： G06F40/284 文献下载
摘要：本申请提供一种主题词确定方法、设备及存储介质，涉及数据处理技术领域，尤其涉及文本处理技术领域。该方法包括：获取待处理文本中的多个短语，每个短语中包括至少一个分词；针对所述多个短语，计算每个短语的凝聚度和所述多个短语之间的自由度，其中，所述凝聚度用于描述一个短语中各个分词同时出现的概率，多个短语之间的自由度用于表征一个短语与其相邻短语的固定程度；根据所述每个短语的凝聚度和所述多个短语之间的自由度，确定所述待处理文本的主题词，实现了文本主题词的自动提取，提高了所提取的主题词的完整性和准确性。
主题词确定方法设备存储介质

1
2
下一页»
尾页
共 26 条