[发明专利]一种声纹采集注册方法及装置在审

专利信息
申请号: 202010431841.3 申请日: 2020-05-20
公开(公告)号: CN111554307A 公开(公告)日: 2020-08-18
发明(设计)人: 梁国奎;荆建营;陈瑞云;姜胜昌 申请(专利权)人: 浩云科技股份有限公司
主分类号: G10L17/14 分类号: G10L17/14;G10L17/04
代理公司: 广州三环专利商标代理有限公司 44202 代理人: 郭浩辉;麦小婵
地址: 511400 广东省广州市番禺区东环*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种声纹采集注册方法及装置,所述方法包括如下步骤:步骤S1,产生随机内容,采集用户对所述随机内容的语音数据;步骤S2,对采集的语音数据进行语音识别,获得语音识别结果;步骤S3,将语音识别得到的语音识别结果与所述随机内容进行比对,保存比对结果一致的语音数据作为录音文件;步骤S4,利用用于声纹注册的录音文件进行声纹注册,本发明可避免声纹注册过程中因外部干扰造成的录音质量差的问题,提高声纹验证的成功率。
搜索关键词: 一种 声纹 采集 注册 方法 装置
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浩云科技股份有限公司,未经浩云科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/202010431841.3/,转载请声明来源钻瓜专利网。

同类专利
  • 一种音频信号处理方法及装置-201911034571.6
  • 张丝潆;彭俊清;王健宗 - 平安科技(深圳)有限公司
  • 2019-10-29 - 2023-10-13 - G10L17/14
  • 本申请公开一种音频信号处理方法及装置,其中,音频信号处理方法包括:获取存在截幅的第一音频信号;获取用于表示所述第一音频信号的截幅比例的目标数据;若所述目标数据属于目标范围,将所述第一音频信号划分为至少两个音频段;对所述至少两个音频段进行截幅检测处理,并根据所述截幅检测处理后的音频段,获得第二音频信号。采用本申请的技术方案,能够尽可能多地保留有效音频信号,使得音频信号的可使用率得到较大的提升。
  • 车辆语音交互的方法及装置、车辆、电子设备和存储介质-202210302739.2
  • 王欣;周盼;陈伟 - 北京罗克维尔斯科技有限公司
  • 2022-03-24 - 2023-10-03 - G10L17/14
  • 本公开公开了车辆语音交互的方法及装置、车辆、电子设备和存储介质,涉及车辆技术领域,主要技术方案包括:对采集到的语音信息进行分析,并提取所述语音信息中的第一声纹特征,将所述第一声纹特征与预设注册声纹库中第二声纹特征进行比对,将所述第二声纹特征中、与所述第一声纹特征的相似度高于预设相似阈值的声纹特征,确定为已注册声纹特征,根据所述已注册声纹特征获取对应的个性化交互策略,并根据所述个性化交互策略执行语音交互。基于声纹识别技术,在用户唤醒车辆语音交互系统时,通过识别用户的声纹特征确认用户的身份,获取用户个性化的交互声音来进行人机交互,以满足用户的个性化需求。
  • 一种家庭智能伴读系统-202310767639.1
  • 刘洺远;周海伦;孙嘉鑫;秦瑶;陶华伟 - 河南工业大学
  • 2023-06-27 - 2023-09-22 - G10L17/14
  • 本发明公开了一种家庭智能伴读系统,包括:语音信息采集单元、声纹识别单元、情感分析单元、存储单元、问题处理单元、语音互动交流单元、控制单元。通过语音信息采集单元获取并分析语音数据,将相关信息输入情感分析单元,声纹识别单元、问题处理单元或控制单元中,情感分析单元用于分析语音的情感状态,声纹识别单元用于识别声纹并建立用户档案,问题处理单元用于对问题进行分析,存储单元存储完备的学习资源、各个科目的试题资源、各个用户的身份档案;控制单元调取存储模块中的学习资源、解题步骤,并输出至语音互动交流单元,完成信息反馈。本发明在有效处理学生问题的同时,可监控学生状态,从而更好地支持孩子的成长和学习。
  • 教学场景下的角色确定方法、角色确定装置和电子设备-202310749876.5
  • 王福强;李健;陈明;武卫东 - 北京捷通华声科技股份有限公司
  • 2023-06-21 - 2023-09-19 - G10L17/14
  • 本申请提供了一种教学场景下的角色确定方法、角色确定装置和电子设备。该方法包括:基于第一个第一音频片段的声纹特征和角色信息,确定多个第一其他音频片段的角色信息以及第一个第二音频片段的角色信息,且基于第一个第二音频片段的声纹特征和角色信息,确定多个第二其他音频片段的角色信息;基于多个第一音频片段的角色信息以及多个第二音频片段的角色信息,确定目标音频数据的目标角色信息;将目标音频数据转换为目标文字信息,并根据目标音频数据的目标角色信息,为对应的目标文字信息添加目标角色信息,解决了现有技术中教学场景下的角色分离因需要启动预设的用户数据模型导致的成本较高以及计算量较大的问题。
  • 储物柜控制方法、装置、计算机设备和存储介质-201810947490.4
  • 潘燕飞 - 平安科技(深圳)有限公司
  • 2018-08-20 - 2023-07-28 - G10L17/14
  • 本申请涉及数据处理技术,提供了一种储物柜控制方法、装置、计算机设备和存储介质。所述方法包括:获取语音检测器检测到的语音信息;通过语音识别模型从所述语音信息中提取目标语音内容,并通过声纹识别模型从所述语音信息中提取目标声纹特征;查询与所述目标语音内容相匹配的预设语音内容,以及与所述目标声纹特征相匹配的预设声纹特征;当查询到所述预设语音内容和所述预设声纹特征时,查询与所述预设声纹特征相对应的储物柜标识;向所述储物柜标识对应的电磁锁发送开门控制指令;所述开门控制指令用于指示所述电磁锁开启所述储物柜标识对应的储物柜。采用本方法能够储物柜的安全性。
  • 一种声纹筛系统及方法-202210712269.7
  • 徐海;汪泽培 - 广州市迪声音响有限公司
  • 2022-06-22 - 2023-06-16 - G10L17/14
  • 本发明适用于声纹处理技术领域,尤其涉及一种声纹筛系统及方法,所述方法包括:获取预录音频数据,得到常驻准入声纹;实时获取实时音频信息,提取其中的声纹信息,将其划分为常驻准入声纹和新增声纹;进行内容识别,计算两者对应识别结果的重合度,判断新增声纹是否准入;根据常驻准入声纹以及准入的新增声纹从实时音频信息提取准入音频数据,并将其与背景音频一同输出。本发明通过事先录制预录音频,根据预录音频判断在本次使用范围内的人声,并在使用过程中,监测新增的人声,根据新增人声的内容判断是否准入,从而在进行音频混合时,将收集到的音频数据与背景音频进行混合输出,避免了声反馈的问题,也解决了使用者临时加入的问题。
  • 一种对话检测方法及装置-202310118785.1
  • 高睿;章良杰 - 北京百度网讯科技有限公司
  • 2023-01-30 - 2023-06-02 - G10L17/14
  • 本公开提供了一种对话检测方法及装置,涉及语音、数据处理等技术领域,可应用于客户服务等场景。具体实现方案为:获得针对对话过程同步采集的音频流和视频流;对音频流进行语音识别,得到文本单元;对视频流进行唇动识别,根据唇动识别结果确定文本单元对应的说话对象;确定说话对象的对象身份;根据对象身份和文本单元,检测说话对象是否存在违规行为。应用本公开实施例提供的对话检测方案,能够提高对话检测的准确性。
  • 基于音频语音处理技术的课堂教学辅助督导方法及系统-202310443927.1
  • 刘洋;黄鑫;张晓诺 - 日照职业技术学院
  • 2023-04-24 - 2023-05-30 - G10L17/14
  • 本发明提供了教育教学技术领域中的基于音频语音处理技术的课堂教学辅助督导方法及系统,所述课堂教学辅助督导方法,包括如下步骤:S1:采集行动目标的定位信息,基于所述定位信息对应于移动目标所在教室的授课区域;S2:采集所述授课区域的第一音频语音数据S和所述授课区域以外的附近区域的第二音频语音数据F,并识别出所述第一音频语音数据S的各声纹和所述第二音频语音数据F中的各声纹;S3:判断所述第一音频语音数据S中的各声纹是否符合所述授课区域以外的附近区域声纹的音频强度要求。本发明能更好的确保课堂教学授课时,授课人员单独授课或互动教学时的语音采集准确性,并对授课区域对应的音频语音数据进行强化。
  • 一种汉语相同音推荐方法、装置、存储介质及设备-202310091857.8
  • 郭浒生;黄玉龙;王龙;闫葛 - 讯飞智元信息科技有限公司
  • 2023-01-17 - 2023-05-05 - G10L17/14
  • 本申请公开了一种汉语相同音推荐方法、装置、存储介质及设备,该方法包括:首先获取样本语音和待鉴定的目标语音,然后利用预先构建的同音词库,对样本语音和目标语音进行音节识别,得到样本语音和目标语音各自包含的词条及各词条所对应的词频;接着,利用样本语音和目标语音各自包含的词条及各词条所对应的词频,构建词条矩阵和三元组;再对三元组进行排序处理,并根据处理结果,确定待推荐的相同音节所对应的词条信息,用以进行声纹鉴定。可见,本申请是在通过预先构建的同音词库对样本语音和目标语音进行音节识别后,自动确定出待推荐的相同音节所对应的词条信息,用以进行声纹鉴定,从而能够有效提高声纹鉴定的效率和便利性。
  • 一种基于声音识别的多模式语音交互方法及系统-202211504381.8
  • 魏玉玲 - 中国第一汽车股份有限公司
  • 2022-11-28 - 2023-05-02 - G10L17/14
  • 本发明涉及一种基于声音识别的多模式语音交互方法及系统,尤其涉及语音交互技术领域,包括,语音采集模块,用以实时采集车内用户的语音信息;内容识别模块,用以识别实时采集的语音信息中的文字内容;语音分析模块,用以对实时采集的语音信息进行声音特征分析,识别确认该语音信息是否为驾驶员发出,并对驾驶员的语音信息的文字内容、语速和语调进行分析,并根据分析结果判断驾驶员的驾驶状态;模式选择模块,用以根据驾驶员的驾驶状态选取对应的交互模式进行语音交互;模式调整模块,用以根据驾驶员的交互反馈信息对交互模式进行实时调整。本发明有效提高了在不同驾驶状态下与驾驶员语音交互的效率。
  • 基于区块链的印控仪智能启动和安全应用方法及系统-202310119816.5
  • 何肖肖 - 北京惠朗时代科技有限公司
  • 2023-02-16 - 2023-04-28 - G10L17/14
  • 本发明公开了一种基于区块链的印控仪智能启动和安全应用方法及系统,涉及语音分析技术领域。该方法包括:采集用印人的语音信号;利用基于聚类式互验的声源定位模型进行声源定位,若声源位置较近,则启动印控仪;利用基于层数渐进式优化的低耗神经网络声纹识别模型对用印人身份进行识别,判定该用印人是否具有用印权限,若有,则允许该用印人用印;采集并识别用印人的用印指令语音信号,完成盖章操作,并将对应的用印文件进行扫描,以得到用印文件扫描图像;利用基于维度渐进式优化的语音编码模型对用印指令语音信号进行编码;将相关数据上链存储。本发明结合多种模型,实现精准的印控仪用印识别及控制;并将核心数据上链存储,保证数据安全性。
  • 音频数据展示方法及装置-202211743319.4
  • 张俊丽;王奇刚;郭莉莉 - 联想(北京)有限公司
  • 2022-12-30 - 2023-04-25 - G10L17/14
  • 本申请实施例提供一种音频数据展示方法及装置。其中,方法包括:获得音频数据集,音频数据集中包括不同声纹特征的多个音频数据;对多个音频数据进行声纹特征识别,确定每种声纹特征相关的音频数据;基于每种声纹特征相关的音频数据,对音频数据集以散点形式进行分类展示;其中,每一类包括一种类型声纹特征相关的音频数据,每一类中的散点表征相应音频数据的语素信息或者语音片段。
  • 基于声纹识别的机器人语音控制权限管理方法-202211518989.6
  • 汤金淼;朱红文 - 澳特拉斯(北京)科技有限公司
  • 2022-11-30 - 2023-04-25 - G10L17/14
  • 本申请涉及一种基于声纹识别的机器人语音控制权限管理方法,通过在机器人语音控制系统中加入声纹识别模块,该模块的作用是鉴别语音指令发出者的身份,只有当说话者的身份与当前登录用户的身份一致时,机器人才执行语音指令,否则不予执行。可以在用户向机器人发出语音指令时,对语音指令的发出者进行身份识别,机器人在同一时间只对当前登录用户的语音指令进行响应,极大提高了语音控制的可靠性和安全性。
  • 一种基于AI的影音角色识别方法及系统-202211710202.6
  • 邓宇翔;李韩;刘宁;庞文刚;刘艾军 - 联通沃音乐文化有限公司;联通在线信息科技有限公司
  • 2022-12-29 - 2023-04-25 - G10L17/14
  • 本发明公开了一种基于AI的影音角色识别方法及系统,属于影音角色识别技术领域,包括角色验证模块、语音解析模块和对比识别模块,所述对比识别模块包括在语音解析模块内,语音解析模块与角色验证模块双向电性连接,语音解析模块包括语音采集模块、语音传输模块、文本转换模块、检索模块和神经网络角色库。本发明中,通过设置语音解析模块,其中语音采集模块能够谈话人与被谈话人的语音信息,并通过语音传输模块传输给文本转换模块,文本转换模块将语音转换为文本信息后,检索模块调取神经网络角色库里的信息,最后将角色信息传递给对比识别模块,经过对比识别模块对比后由角色识别模块确定角色人员,有效提高了谈话人与被谈话人角色识别的正确率。
  • 语音处理方法及相关产品-202010100865.0
  • 蒋波 - REALME重庆移动通信有限公司
  • 2020-02-18 - 2023-04-18 - G10L17/14
  • 本发明实施例公开了一种语音处理方法及相关产品,其中方法应用于电子设备,该电子设备包括语音拾取器,该方法包括:在所述电子设备满足预设声纹验证条件时,通过所述语音拾取器采集待验证用户输入的待验证语音信号;确定所述待验证语音信号对应的语音文本;若预设语音样本库不包括所述语音文本,则根据所述语音文本,对预先存储的目标用户的第一声纹识别模型进行更新,得到第二声纹识别模型;将所述待验证语音信号输入至所述第二声纹识别模型,得到所述待验证用户和所述目标用户之间声纹特征的第一相似值;若所述第一相似值大于或等于第一阈值,则确定所述待验证用户为所述目标用户。采用本发明,可提高声纹识别的成功率。
  • 基于人工智能的电子印章语音交互式应用方法及系统-202211597778.6
  • 苏琳 - 北京惠朗时代科技有限公司
  • 2022-12-14 - 2023-04-07 - G10L17/14
  • 本发明公开了一种基于人工智能的电子印章语音交互式应用方法及系统,涉及语音分析技术领域。该方法包括:提取用户语音信号;对用户身份进行识别;利用基于阶梯式尺度分解的小波去噪方法,对用户语音信号进行深度去噪;利用基于多类别特定噪声加权的语音识别方法,对目标去噪语音信号进行识别,并确定高置信度语音识别结果;若高置信度语音识别结果的内容与语音提示信号的内容一致,则利用基于多语音编码的语音识别结果深度检验方法,对高置信度语音识别结果进行深度检验,生成检验结果。本发明利用多种方法相结合,进行多重精准识别,大大提高了用印安全性。
  • 一种基于K—均值聚类分析的人工智能语音分析方法-202211512555.5
  • 孙艺;彭伟;吴立楠;龙中武;徐懿 - 北京智齿博创科技有限公司
  • 2022-11-28 - 2023-03-28 - G10L17/14
  • 本发明提供了一种基于K—均值聚类分析的人工智能语音分析方法,包括:建立语音分析模型,获取训练语音,对所述训练语音进行语音处理,获得训练语音特征,并针对所述训练语音特征采用K—均值聚类分析通过聚类分析建立语音分析模型;采集输入语音信息;针对输入语音信息进行语音处理,获得语音特征;将语音特征结合语音分析模型进行数据分析,获得语音特征与语音分析模型的分析数据;根据分析数据得到语音信息的分析识别结果。本发明提出的一种基于K—均值聚类分析的人工智能语音分析方法,针对K—均值聚类分析算法针对语音进行分析与识别,从而使得能够针对任何长度的语音都能够识别出来,从而消除语音识别对语音长度的限制,提高语音识别的准确性。
  • 基于神经网络的声波用户识别及心跳监测耳机系统和方法-202211534010.4
  • 陈晓江;孙雪;卫旭东;邓文文;李晓慧;王安文;房鼎益 - 西北大学
  • 2022-12-01 - 2023-03-28 - G10L17/14
  • 本发明公开了一种基于神经网络的声波用户识别及心跳监测耳机系统和方法,该系统包括具有麦克风的入耳式耳机、声学模数转换设备、所述后端服务设备至少包括:数据采集模块用于进行声波信号发射和接收;数据处理模块用于得到预处理后的接收信号;人体耳道特征提取模块用于提取MFCC特征及基于传递函数的特征进行耳道特征;用户身份识别模块用于得到训练好的神经网络模型;心跳信息提取模块用于得到处理后的相位信息;自干扰消除模块得到不包含直接路径干扰的相位信号;心跳频率计算模块用于得到心跳频率。本发明能够降低身份识别和心跳监测的成本,健壮性、鲁棒性高。
  • 一种基于自定义关键词的声纹识别方法-202211212050.7
  • 张毅;龚永康 - 杭州芯声智能科技有限公司
  • 2022-09-30 - 2023-03-21 - G10L17/14
  • 本发明提供的一种基于自定义关键词的声纹识别方法,涉及音频识别技术领域。本发明通过声纹数据标记、模型训练、声纹注册和声纹验证的方法实现了一种低计算量、低功耗、高识别率、无云服务支持的离线、本地声纹识别方法;本发明使用一种帧级别音频特征比对方法进行音频粗比对是否是同一关键词,在包含声纹训练数据收集、声纹数据注册、用户声纹验证过程中,进行一个低计算量、较高检错率的用户声纹音频粗识别,以达到在使用声纹神经网络模型之前就能够将一些干扰音频剔除在外;使用一种低参数、低计算量的声纹神经网络模型进行本地音频声纹特征提取;本申请设计所有算法模型都可部署在同一、离线、本地的存储介质上,且无需与云服务器进行交互。
  • 信息处理方法、装置、电子设备及存储介质-202211485260.3
  • 崔晓亮;刘丹;刘已杨 - 京东科技信息技术有限公司
  • 2022-11-24 - 2023-03-03 - G10L17/14
  • 本发明公开了一种信息处理方法、装置、电子设备及存储介质。该方法包括:在基于目标接听设备接收到各发言用户的音频流时,将音频流发送至目标服务端;其中,各发言用户所对应的终端设备与目标接听设备相通信;基于目标服务端,确定与音频流相对应的发言用户标识,以及文本信息;将发言用户标识以及相应的文本信息对应显示至目标显示设备。本技术方案可以基于目标服务端对个多个发言用户的音频流进行区分,并转写为与各发言用户相对应的转化文本显示在目标显示设备上,解决了现有的语音转写技术对多个发言用户的音频不能区分的技术问题,实现了不仅可以区分各发言用户,还可以将各发言用户的音频信息转换为相应的文本以备使用的效果。
  • 音频切分方法、装置、电子设备和存储介质-202211213405.4
  • 唐文涛;陈凯利;刘晓苓;樊红林;马瑜;苟玉鹏;刘东;杨俊逸;黄敬 - 科大讯飞股份有限公司
  • 2022-09-29 - 2023-02-28 - G10L17/14
  • 本发明提供一种音频切分方法、装置、电子设备和存储介质,其中方法包括:确定待切分的双声道音频;分别对双声道音频中的第一声道音频和第二声道音频进行静音段标注,得到第一声道音频中的静音段和第二声道音频中的静音段;基于第一声道音频中的静音段和第二声道音频中的静音段,确定双声道音频中的共性静音分隔点,并基于共性静音分隔点,对第一声道音频进行切分,得到多个第一切分音频段;对各第一切分音频段进行静音段切除,得到各第二切分音频段,基于各第二切分音频段的声纹特征进行客户音频组合,得到以客户为单位的客户音频,克服了定时切分无法区分客户的缺陷,实现了以客户为单位的音频切分,为不同的服务质检和服务评价提供了助力。
  • 车载语音助手的设计方法、装置、终端设备以及存储介质-202211195016.3
  • 丁晓雯;张森;刘威;宋冠谕 - 上汽通用五菱汽车股份有限公司
  • 2022-09-28 - 2022-12-27 - G10L17/14
  • 本发明公开了一种车载语音助手的设计方法、装置、终端设备以及存储介质,车载语音助手的设计方法包括以下步骤:获取车辆用户的第一语音信息,根据第一语音信息在预设的多个语音助手虚拟形象中确定目标语音助手虚拟形象;根据第一语音信息针对目标语音助手虚拟形象进行更新,得到更新后的目标语音助手虚拟形象和对应的应答话术;根据更新后的目标语音助手虚拟形象和应答话术,针对车辆用户提供个性化语音服务。从而,本发明能够实现为不同用户提供符合用户需求的个性化服务,从而,在满足用户对智能语音助手的虚拟形象的个性化需求的同时,增强用户对智能设备的语音助手产品的好感度及用户粘度。
  • 一种移动终端系统设置的语音交互装置与方法-202211186433.1
  • 王莹 - 深圳市第二人民医院(深圳市转化医学研究院)
  • 2022-09-28 - 2022-12-16 - G10L17/14
  • 本发明提出一种移动终端系统设置的语音交互装置与方法,语音交互装置包括:语音采集模块、语音识别模块、声纹识别模块、图像采集模块、图像处理模块、数据交互模块、指令匹配模块、用户管理模块、安全防护模块和数据存储模块。方法包括:预置系统设置语音指令集,触发系统设置语音交互,用户身份识别,用户通过语音指令实施系统设置,语音播报实施进度与结果。通过语音交互设置解决了移动终端触摸屏失效的情况下无法进行系统设置的问题。本发明结构简单、逻辑清晰,应用场景广阔。
  • 一种人机语音智能交互方法和装置-202211373164.X
  • 韩松岭;郏维强;张梦璘;刘通 - 之江实验室
  • 2022-11-04 - 2022-12-02 - G10L17/14
  • 本发明涉及语音交互技术领域,尤其涉及一种人机语音智能交互方法和装置,该方法包括:步骤一,用户使用自定义唤醒词激活智能语音交互服务,激活后发送语音信息给音频数据处理器;步骤二,音频数据处理器对语音信息进行语音识别、语义解析和声纹识别,判断用户身份,获得用户意图,后根据用户意图,匹配执行对应的指令动作并返回动作执行结果给用户;步骤三,用户使用自定义关闭话术关闭智能语音交互服务,关闭后的语音交互服务等待下次通过自定义唤醒词进行唤醒。本发明实现了语音对智能设备的多种控制,并且加入了灵活的权限控制功能,可以为多种智能设备提供定制化的智能语音交互服务。
  • 一种用于声纹安全认证系统的重放语音攻击检测方法-202211030037.X
  • 简志华;金宏辉;章子旭;闫铎文;吴迎笑;吴超;游林 - 杭州电子科技大学
  • 2022-08-26 - 2022-11-22 - G10L17/14
  • 本发明提供一种用于声纹安全认证系统的重放语音攻击检测方法。首先将语音信号经过预处理,然后通过线性等宽的Gabor滤波器获得若干子带信号,将每个子带信号通过FDEO来获得瞬时幅度和瞬时频率,然后分别作为SENet的输入,得到增强后的IACC和IFCC特征,并且分别经过加窗取平均和离散余弦变换处理获得各自的低维特征向量。然后将提取的IACC和IFCC特征向量分别用来训练各自的高斯混合模型分类器,得到各自的分类器模型参数。在检测时,将待测语音的IACC和IFCC特征向量分别输入到各自的GMM分类器并进行可信度打分,最后进行分数级融合,以此实现真伪语音的判别。
  • 一种音频片段的聚类方法、装置、电子设备和介质-202210828411.4
  • 王斌;王乾坤;穆维林;杨晶生 - 北京字跳网络技术有限公司
  • 2022-07-13 - 2022-09-13 - G10L17/14
  • 本公开提供了一种音频片段的聚类方法、装置、电子设备和介质,该聚类方法包括:获取第一音频片段对应的第一聚类结果,获取当前采样周期采集的第二音频片段,根据所述第一聚类结果解析所述第二音频片段得到第二聚类结果;其中第二音频片段与上一采样周期采集的第一音频片段均截取自相同的实时音频流,第二聚类结果中包括在第二音频片段内至少一个说话人的身份标识信息和与身份标识信息对应的时间戳信息。本方法实现了流式的说话人音频流的切分和聚类,并在线实时更新说话人信息,从而能实时地反映说话人说话的情况,提高了说话人识别的精准度和用户体验。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top