[发明专利]一种声纹识别方法和装置有效

专利信息
申请号: 202010071165.3 申请日: 2020-01-21
公开(公告)号: CN111261172B 公开(公告)日: 2023-02-10
发明(设计)人: 张晴晴;罗磊;杨金富;岑吴镕;马光谦;汪洋 申请(专利权)人: 北京爱数智慧科技有限公司
主分类号: G10L17/06 分类号: G10L17/06
代理公司: 北京智沃律师事务所 11620 代理人: 吴志宏
地址: 100044 北京市海淀区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开一种声纹识别方法和装置,该方法包括以下步骤:从音频信号中提取用户声纹特征;对所述用户声纹特征与预设声纹特征进行典型相关分析,得到所述用户声纹特征与所述预设声纹特征之间的相关度信息;根据所述相关度信息确定声纹识别结果。本发明根据用户声纹特征与预设声纹特征之间的相关度信息,确定声纹识别结果,能够提升声纹识别的准确率。
搜索关键词: 一种 声纹 识别 方法 装置
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京爱数智慧科技有限公司,未经北京爱数智慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/202010071165.3/,转载请声明来源钻瓜专利网。

同类专利
  • 一种多路音频转单路音频的语音识别方法及存储介质-202310931886.0
  • 蔡含;罗香;邱建正;陈治法 - 福建智涵信息科技有限公司
  • 2023-07-27 - 2023-10-24 - G10L17/06
  • 本发明涉及一种多路音频转单路音频的语音识别方法及存储介质,方法包括以下步骤:通过声卡实时获取多路麦克风采集的音频;根据预设时间长度采集的各路麦克风的音频的最大音量值进行确定当前有效说话者对应的麦克风;将确定当前有效说话者对应的麦克风采集的音频输入至语音识别引擎中;语音识别引擎输出语音识别结果,并计算当前语音识别结果对应音频的起始时间及结束时间;根据当前语音识别结果对应音频的起始时间及结束时间,确定当前语音识别结果对应的角色。用户只需要开启麦克风即可适用,简化了使用步骤,提高了使用效率,同时只需要一路语音识别引擎即可实现多路的语音识别,降低成本。
  • 一种用于婴儿啼哭的哭声检测方法、系统及装置-202311002111.1
  • 黄梓铭;曹海涛;陈海山 - 广州番禺职业技术学院
  • 2023-08-10 - 2023-10-24 - G10L17/06
  • 本发明公开了一种用于婴儿啼哭的哭声检测方法、系统及装置,属于婴儿哭声检测技术领域,包括:通过对获取的哭声声音样本与非哭声声音样本进行标注,构建数据集;通过小波散射网络和短时傅里叶变换方法,分别提取数据集的声音特征,并获取声音特征对应的标签;构建具有2层深度可分离卷积层和2层全连层的深度神经网络,依据声音特征,依据交叉熵损失值进行训练,将标签作为输出特征,构建哭声识别模型;采集婴儿声音,通过小波散射网络和/或短时傅里叶变换方法进行特征提取后,依据哭声识别模型,识别婴儿声音中的哭声代表的含义;本发明的技术设计检测准确率高,误触发少,为婴儿啼哭装置的研发,提供了新的技术支撑。
  • 声纹识别方法和装置-202311025269.0
  • 刘晴;赵德欣 - 中国电信股份有限公司
  • 2023-08-15 - 2023-10-20 - G10L17/06
  • 本公开提供了一种声纹识别方法和装置,涉及声纹识别技术领域,所述方法包括:将目标语音的声音特征输入预先训练的第一声纹识别网络中的第一网络层;在第一网络层的运行时长小于预设时长,且第一网络层的输出满足预设要求时,通过第一网络层的输出确定目标语音的声纹向量;在运行时长大于或等于预设时长,且第一网络层的输出不满足预设要求时,将第一网络层的输出输入第一声纹识别网络中的第二网络层,并通过第二网络层的输出确定目标语音的声纹向量,其中,第二网络层的复杂度高于第一网络层;根据目标语音的声纹向量识别目标语音的发声者的身份。上述方式在提高响应速度的同时保证了识别结果准确性。
  • 一种基于大数据互联网语音识别系统-202310588781.X
  • 李建;潘姜 - 南京禾鸣信息技术有限公司
  • 2023-05-24 - 2023-09-22 - G10L17/06
  • 本发明公开了一种基于大数据互联网语音识别系统,涉及语音识别技术领域,现提出如下方案,包括信息录入单元、声音获取单元、数据库、任务发布单元、地图定位展示单元、识别过滤单元、接收单元和多个电子设备;本发明通过信息录入单元、声音获取单元、数据库、任务发布单元、地图定位展示单元、识别过滤单元、接收单元和多个电子设备对使用者进行声音录入并特征识别对比,并通过精准过滤获取到对象声音,并根据该电子设备的定位信息实时更新该电子设备在地图上的位置,从而便于对象进行追寻,追寻过程中该设备实时监听对话内容,辅助有关部门对象追寻,在电子设备普及的时代,通过本系统可以大大提高对象追寻效率。
  • 一种语音识别唤醒方法、系统、终端设备及存储介质-202310815805.0
  • 郭锦炜;林丽玲 - 深圳腾信百纳科技有限公司
  • 2023-07-04 - 2023-09-01 - G10L17/06
  • 本申请涉及电子设备技术领域,尤其涉及一种语音识别唤醒方法、系统、终端设备及存储介质。其方法包括,根据预设语音识别规则将语音特征对应的语音信号转换为目标文本,若目标文本中存在预设唤醒设备对应的基础唤醒语义信息,则判断目标文本中是否存在预设唤醒设备对应的目标唤醒语义信息;若存在则根据目标唤醒语义信息获取对应的目标唤醒设备;若目标唤醒设备为多个,则判断目标唤醒语义信息中是否存在指定关键词;若不存在则获取目标人员的方位信息;根据方位信息对应的预设唤醒规则,基于目标唤醒语义信息唤醒对应的目标唤醒设备。本申请提供的一种语音识别唤醒方法、系统、终端设备及存储介质具有提升设备的语音识别唤醒效果。
  • 音频验证方法、相关装置、存储介质及程序产品-202310606668.X
  • 郭军军;程晓娟;萧子豪 - 北京瑞莱智慧科技有限公司
  • 2023-05-26 - 2023-08-22 - G10L17/06
  • 本申请实施例公开了一种音频验证方法、相关装置、存储介质及程序产品。所述方法包括:基于待验证音频数据获取多个类型的声纹特征,所述声纹特征包括频域特征和向量特征中的至少一种类型的特征;对多个所述声纹特征进行特征融合处理,以确定所述待验证音频数据的目标测试声纹向量特征;确定所述目标测试声纹向量特征与注册音频数据的注册声纹向量特征的目标相似度分数,所述目标相似度分数用于确定所述待验证音频数据的验证结果。本方案融合了待验证音频数据多个类型的声纹特征确定目标测试声纹向量特征,使得目标测试声纹向量特征的特征维度更高,通过更高维度的特征进行音频验证处理,可以提高音频验证结果的准确率。
  • 话者分离方法、装置、电子设备和存储介质-202010365591.8
  • 方磊;蒋俊;方四安;柳林;方堃;丁奇 - 合肥讯飞数码科技有限公司
  • 2020-04-30 - 2023-08-22 - G10L17/06
  • 本发明实施例提供一种话者分离方法、装置、电子设备和存储介质,其中方法包括:确定待分离音频文件包含的多个语音片段的声纹特征;其中,单一语音片段仅包含单一话者的语音;对所有语音片段的声纹特征进行聚类,得到多个候选话者数量分别对应的候选聚类结果;基于任一候选话者数量对应的候选聚类结果,确定该候选话者数量对应的聚类评估结果;基于每一候选话者数量分别对应的候选聚类结果和聚类评估结果,确定话者分离结果。本发明实施例提供的方法、装置、电子设备和存储介质,实现了不确定话者数量情况下的无源话者分割,避免了固定话者数量或通过固定阈值来确定话者数量导致话者数量不符合实际情况,影响无源话者分离准确性的问题。
  • 一种基于半监督学习的陆空通话说话人识别方法及设备-202310379089.6
  • 石含;林毅;郭东岳;吴志红;杨波 - 四川大学
  • 2023-04-11 - 2023-07-21 - G10L17/06
  • 本发明涉及民用航空空中交通管理语音通信领域,特别是一种基于半监督学习的陆空通话说话人识别方法及设备。本发明提出了一种空管语音关键信息自动提取框架,对真实环境中的空管数据进行标注,以构建大规模空管说话人识别语音数据集;基于所述空管说话人识别语音数据集,本发明构建了一种使用联合损失函数训练的说话人识别模型,该模型包含身份注意力模块和对抗解耦模块,并基于半监督学习范式,通过迭代优化的方式逐步提高数据标注质量与模型性能,其识别准确率相比基准模型有显著提高。解决了空管多人、多轮无线电通话环境条件下,如何快速准确区分说话人身份的问题,为管制员和飞行员快速识别地空通话中各方身份提供辅助参考。
  • 用户特定的声学模型-202010039353.8
  • M·保力克;H·G·梅森;J·A·斯金德 - 苹果公司
  • 2018-05-08 - 2023-07-21 - G10L17/06
  • 本发明涉及用户特定的声学模型。更具体而言,本发明提供了用于提供用户特定的声学模型的系统和过程。根据一个示例,方法包括在具有一个或多个处理器的电子设备处接收多个语音输入,这些语音输入中的每个语音输入与电子设备的相同用户相关联;将多个语音输入中的每个语音输入提供给用户独立的声学模型,该用户独立的声学模型提供多个语音结果;在电子设备上发起用户特定的声学模型;以及基于多个语音输入和多个语音结果来调节用户特定的声学模型。
  • 声纹鉴定报告生成方法、装置及计算机可读介质-202310267662.4
  • 丁俊豪;陈东鹏;李亚桐;范恒胜 - 深圳市声扬科技有限公司
  • 2023-03-08 - 2023-07-11 - G10L17/06
  • 本申请公开了一种声纹鉴定报告生成方法、装置及计算机可读介质,涉及声纹鉴定技术领域,方法包括:基于预先获取的多个检材特征音段和多个样本特征音段,获取多个图谱信息;生成每个所述图谱信息的描述信息;基于自然语言处理模型,对多个所述描述信息进行统计分析,生成总结信息;基于预设的格式模板,根据所述图谱信息、所述描述信息及所述总结信息生成声纹鉴定报告。因此,本方法能够基于检材语音和样本语音自动生成声纹鉴定报告,大大节约了人工撰写鉴定报告的人力和时间。
  • 身份验证方法、终端设备及计算机可读存储介质-201810915330.1
  • 杨翘楚;王健宗;肖京 - 平安科技(深圳)有限公司
  • 2018-08-13 - 2023-07-07 - G10L17/06
  • 本发明适用于数据处理技术领域,提供了一种身份验证方法、终端设备及计算机可读存储介质,包括:通过获取待验证的目标对象的语音数据,根据预设的梅尔频率倒谱系数模型,从语音数据中提取目标对象的声纹特征向量,将声纹特征向量输入预设的高斯混合模型,得到目标对象的高斯声纹向量,最后将高斯声纹向量与标准声纹向量进行对比,生成身份验证结果。通过分离噪声帧和语音帧,并构建梅尔频率倒谱系数模型和高斯混合模型,从目标对象的语音数据中提取出高斯声纹向量,通过高斯声纹向量确定目标对象是否通过身份验证,降低了语音数据中的噪声对目标对象身份验证的影响,提高了身份验证的成功率。
  • 音频的说话人识别方法及装置-202111574887.1
  • 何淑琳 - 顺丰科技有限公司
  • 2021-12-21 - 2023-06-23 - G10L17/06
  • 本申请提供一种音频的说话人识别方法及装置,该音频的说话人识别方法包括:获取待识别音频中多个第一音频帧的声音特征和多个预设说话人声音特征;根据多个第一音频帧的声音特征和多个预设说话人声音特征确定各个第一音频帧的第一说话人识别结果;对多个第一音频帧的第一说话人识别结果平滑处理,得到第二说话人识别结果;根据第二说话人识别结果更新预设说话人声音特征并再次进行说话人识别,得到目标说话人识别结果。本申请能够得到更为准确的说话人识别结果,从而提高音频的说话人识别方法准确度。
  • 语音校正系统及语音校正方法-201811249863.7
  • 陈冠中;宋志伟;简佑丞;陈怡玲 - 广达电脑股份有限公司
  • 2018-10-25 - 2023-05-26 - G10L17/06
  • 一种语音校正系统,包含:一储存装置及一处理装置。储存装置用以储存一第一数据库。处理装置包含:一音频接收器、一语音辨识引擎、一运算模块以及一判断模块。音频接收器接收多个输入语音。语音辨识引擎辨识此些输入语音,并产生对应每个此些输入语音所对应的多个候选词汇及每个此些候选词汇对应到的一词汇机率。运算模块将所有此些候选词汇中相同者所各自对应到的词汇机率执行一特定运算,以对应产生多个运算结果。判断模块判断每个此些运算结果是否大于一分数阈值,并将大于分数阈值的至少一个输出结果储存至第一数据库。
  • 一种声纹检测方法、装置、电子设备及存储介质-202310239113.6
  • 郑榕;王秋明 - 北京远鉴信息技术有限公司
  • 2023-03-14 - 2023-05-23 - G10L17/06
  • 本申请提供了一种声纹检测方法、装置、电子设备及存储介质,包括:获取用户的待检测语音,并提取出待检测语音的待检测声纹特征;将待检测声纹特征与预设声纹模型库中的用户的标准声纹特征进行相似度计算,输出相似度值;其中,任一用户的标准声纹特征是通过对用户的多条样本音频进行去除无效样本音频、聚类分析处理、低相似度样本语音滤除处理以及语音真伪检测处理得到的;若相似度值大于预设相似度阈值,则用户的待检测声纹特征与标准声纹特征为同一人。通过对非人声、非目标说话人语音、多人混淆语音、单条多人语音、伪造生成语音进行信息自动滤除,提高了声纹模型库的质量,进而提高了声纹检测的准确性。
  • 声纹注册方法及电子设备-202111266367.4
  • 房英康 - 华为终端有限公司
  • 2021-10-28 - 2023-05-02 - G10L17/06
  • 本申请公开了声纹注册方法及电子设备,涉及声纹注册技术领域,可以提高声纹认证的准确性。该方法包括:获取第一语音信号和用于指示第二电子设备采集语音信号的参数的第一参数信息,根据第一参数信息调整所述第一语音信号,得到第二语音信号,根据第二语音信号生成第一声纹模型,根据第一声纹模型对第二电子设备采集的语音信号进行认证,或者向第二电子设备发送第一声纹模型。
  • 声纹识别方法、装置、电子设备和计算机可读存储介质-202211463208.8
  • 陈磊;张力潇 - 芜湖美的智能厨电制造有限公司
  • 2022-11-22 - 2023-04-25 - G10L17/06
  • 本申请提供一种声纹识别方法、装置、电子设备和计算机可读存储介质,声纹识别方法包括:响应于操控语音的采集操作,根据操控语音和待求解泰勒展开式获得与操控语音对应的操控泰勒展开式;基于操控泰勒展开式提取操控语音的目标声纹特征;比较操控声纹特征与预设声纹特征,若操控声纹特征与预设声纹特征匹配,则开始对操控语音的内容进行识别。由于本申请中操控泰勒展开式可基于操控语音的变化做出相应的调整以准确的提取操控语音的目标声纹特征,本申请的声纹识别方法可以有效辨别目标声纹特征和操控声纹特征,进而解决智能化设备会被用户以外的人通过语音来控制,由此带来安全隐患的技术问题。
  • 一种基于知识蒸馏的平凡发音说话者识别方法及系统-202211695832.0
  • 李郡;王啸;尚德龙;周玉梅 - 中科南京智能技术研究院
  • 2022-12-28 - 2023-04-25 - G10L17/06
  • 本发明公开了一种基于知识蒸馏的平凡发音说话者识别方法及系统,方法包括:获得平凡发音说话者嵌入层网络;采集说话者的注册音频并进行频谱特征提取,将提取得到的注册音频频谱输入平凡发音说话者嵌入层网络,获得注册音频频谱在平凡发音说话者嵌入层网络中的输出;获得实时音频数据,并检测实时音频数据是否为平凡发音;若是,对实时音频数据进行特征提取,并将提取得到的实时音频频谱输入平凡发音说话者嵌入层网络,得到实时音频频谱在平凡发音说话者嵌入层网络中的输出;将注册音频频谱在平凡发音说话者嵌入层网络中的输出和实时音频频谱在平凡发音说话者嵌入层网络中的输出进行余弦相似度计算,以判断是否为同一说话者。
  • 一种针对声纹识别的音素选择方法及装置-202211556591.1
  • 汪欣;展华益 - 四川启睿克科技有限公司
  • 2022-12-06 - 2023-04-14 - G10L17/06
  • 本发明公开了一种针对声纹识别的音素选择方法及装置,方法包括获取语音数据库以及每条语音数据对应的标签;获取每条语音数据的音素序列以及每个音素的边界位置;计算每个音素类对于声纹识别任务的收益值;根据待识别的语音数据所包含的音素序列及所对应的收益值构建奖励函数,并定义状态和可采取的行为;以最大化总奖励值为目标,计算最优的有效音素路径;利用有效音素路径计算声纹识别结果。本发明自动地根据待识别语句的内容,动态计算最优的有效音素组合,并基于达到整体收益最高的原则考虑全局收益来使得识别率趋于最优;且对于较长的待识别语音通过挑选强区分性音素且忽略弱区分性音素的方式,提升识别效率和准确率。
  • 说话人确定方法、装置、电子设备及存储介质-202211576598.X
  • 程婷 - 北京奇艺世纪科技有限公司
  • 2022-12-08 - 2023-03-31 - G10L17/06
  • 本发明实施例提供的说话人确定方法、装置、电子设备及存储介质,包括,从待识别的视频文件中分离获取音频文件和图像文件;按照每个音频段对应的起止时间对音频文件进行音频切割,得到多个音频片段信息,以及对图像文件进行人脸识别,得到每个起止时间对应的人脸信息;对每个音频片段信息进行声纹特征提取,得到每个音频片段信息对应的声纹特征;基于人脸信息和声纹特征确定每个音频段对应的说话人。本发明通过人脸信息和声纹特征即能准确确定出每个音频段对应的说话人,无需通过建立声纹特征库检索比对确定说话人,大大降低了工作量、难度和局限性,有效提高了说话人确定的准确性和效率。
  • 基于区块链的金融交易操作及大数据安全存储方法和系统-202310179555.6
  • 杨芳 - 北京海上升科技有限公司
  • 2023-03-01 - 2023-03-28 - G10L17/06
  • 本发明公开了一种基于区块链的金融交易操作及大数据安全存储方法和系统,涉及语音分析技术领域。该方法包括:截取用户在看盘的过程中的图像,对交易价格进行识别;将各个价格识别结果进行比对,发送提醒信息给对应的用户;当用户需要完成交易时,采集用户的语音信号,对语音信号进行去噪处理,以得到去噪语音信号;对去噪语音信号进行声纹识别,得到用户的身份信息;判断该用户是否具备操作权限,若是,则对该用户的去噪语音信号进行识别,生成并根据识别结果在该用户的个人账户系统中完成交易;将相关信息上链存储。本发明可提高语音识别精度,保证高质量的金融交易操作;并结合区块链实现数据的安全存储。
  • 音频信号处理模型训练方法、装置及介质-202210216406.8
  • 张鹏飞;田佳旭;张磊;井绪海;周健;夏溧 - 北京中关村科金技术有限公司
  • 2022-03-07 - 2023-03-28 - G10L17/06
  • 本申请公开了一种音频信号处理方法、装置及介质。其中方法包括:基于待处理的音频文件,确定目标声道的音频信号;确定目标声道的音频信号包括的静默片段;对音频信号包括的静默片段进行裁剪,得到去除静默片段后的有声片段;对有声片段进行有效性验证;依据有效性验证结果,确定针对目标声道的用于进行声纹提取的目标有声片段。本申请先提取声道的音频信号,再提取有声片段的方式,起到了在不降低音频质量的基础上消除静默片段的效果,而有效性验证则进一步提高了有声片段的精确性,提高了后续提取到的声纹特征的准确性,降低了后续提取声纹特征的计算开销。
  • 语音便签的标记方法、装置及移动终端-202111057666.7
  • 陈嘉琳 - 深圳市万普拉斯科技有限公司
  • 2021-09-09 - 2023-03-14 - G10L17/06
  • 本申请实施例提供了一种语音便签的标记方法、装置及移动终端,其中方法包括:在语音录制过程中,获取语音的声纹特征,确定与所述声纹特征对应的语音转换文本;根据所述声纹特征确定所述语音转换文本的标记方式,所述标记方式用于区分不同声纹特征对应的语音转换文本。通过本申请提供的语音便签的标记方案,根据语音的声纹特征确定语音转换文本的标记方式,对语音转换文本进行标记,在语音录制过程中,对不同说话者的语音转换文本进行区分标记,有效区分不同说话者的语音文字内容,提高内容区分度,便于在语音录制后对语音内容进行回听、编辑整理。
  • 一种说话人向量正则化方法、装置、电子设备和存储介质-202010218732.3
  • 蔡云麒;王东;李蓝天 - 清华大学
  • 2020-03-25 - 2023-02-24 - G10L17/06
  • 本发明实施例提供一种说话人向量正则化方法、装置、电子设备和存储介质,其中方法包括:确定待识别语音的说话人向量;将所述说话人向量输入至区分性标准流模型,得到所述区分性标准流模型输出的说话人正则化向量,所述说话人正则化向量整体服从高斯分布,且所述说话人正则化向量中表征各个说话人的向量分别服从高斯分布;所述区分性标准流模型是基于样本说话人向量及其对应的说话人标签训练得到的;基于所述说话人正则化向量,确定所述待识别语音的说话人识别结果。本发明实施例提供的方法、装置、电子设备和存储介质,能够很好地与后端打分模型兼容,提高了声纹识别系统的性能。
  • 语音用户识别方法、装置、电子设备及存储介质-202211183402.0
  • 张志勇;邵剑业;蒋兵兵;龙明康 - 科大讯飞股份有限公司
  • 2022-09-27 - 2023-01-31 - G10L17/06
  • 本申请提出一种语音用户识别方法、装置、电子设备及存储介质,方法包括:通过提取用户语音的声纹特征确定与用户语音对应的第一声纹标识;将第一声纹标识与预先设置的声纹标识对照表中的声纹标识进行对比,确定与第一声纹标识对应的第一主声纹标识;声纹标识对照表中包含各个用户的主声纹标识和副声纹标识。采用本申请的技术方案,利用声纹标识对照表可以将同一用户的所有副声纹标识与主声纹标识对应关联,当用户语音对应的声纹发生偏移时,可以通过声纹偏移后的副声纹标识,从声纹标识对照表准确查询到该用户的主声纹标识,提高了用户信息确定的准确度。
  • 语音识别方法、装置、存储介质及电子设备-202211168152.3
  • 陈昌儒;谢永斌;宋阳 - 北京欧珀通信有限公司
  • 2022-09-23 - 2023-01-06 - G10L17/06
  • 本申请实施例公开了一种语音识别方法、装置、存储介质及电子设备,其中,本申请实施例接收用户的识别语音数据进行识别,提取该待识别语音数据的第一声纹特征,将该第一声纹特征与预设声纹库中的第二声纹特征进行匹配,以判断该用户是否为已知说话人,如果该用户不是已知说话人,则根据通用语音识别模型对该待识别语音数据进行识别处理,得到识别结果,并且基于该待识别语音数据和第一声纹特征对该通用语音识别模型进行再训练,得到该用户对应的第一语音识别模型,并将该用户的第一声纹特征添加到预设声纹库中,当下次再接收到该用户的语音数据时,可以使用该用户对应的第一语音识别模型对该语音数据进行识别,从而提高了语音识别的准确率。
  • 一种生成电子病历的方法、设备和计算机可读存储介质-202211015118.2
  • 闫钊;张兵 - 北京鹰瞳科技发展股份有限公司
  • 2022-08-23 - 2022-11-22 - G10L17/06
  • 本申请公开了一种生成电子病历的方法、设备和计算机可读存储介质。所述方法包括:从左声道和右声道获取与问诊相关的音频数据,其中所述左声道和右声道分别设置有各自的角色标签;对与所述问诊相关的音频数据进行语音识别,以至少获得与角色标签对应的对话文本;基于对话文本分别提取其与问诊相关的关键信息;以及使用神经网络模型根据角色标签和对应的对话文本中的关键信息生成电子病历。利用本申请的方案,可以将音频数据分别与医务人员和患者相对应,以避免电子病历报告出错。
  • 安全自动说话者验证系统-202180020058.0
  • 哈菲兹·马利克;赛义德·伊尔塔扎 - 密歇根大学董事会
  • 2021-01-12 - 2022-11-01 - G10L17/06
  • 传统的说话者验证系统容易受到语音欺骗攻击,例如语音重放攻击、语音克隆攻击和克隆重放攻击。为了克服这些缺陷,提出了一种基于新颖的符号修正声学局部三值模式sm‑ALTP特征和具有增强攻击向量机的基于非均衡装袋的分类器集合的安全自动说话者验证系统。所提出的音频表示方法通过将音频帧中的高频和低频分量正态分布在凸函数上,来对这些分量进行聚类。之后,应用邻域统计数据来采集用户特有的声道信息。
  • 一种基于声音识别和人脸识别的复合网课考勤系统及方法-202210662375.9
  • 陈荣征;李浩能;李育廷 - 广东职业技术学院
  • 2022-06-13 - 2022-11-01 - G10L17/06
  • 本发明公开了一种声音识别和人脸识别的复合网课考勤系统及方法,基于X‑Vector算法和PLDA算法建立声纹识别模型,基于YOLOv3算法建立人脸识别模型,采集并预处理学生在考勤时朗读词条信息的原始语音信息和原始视频动态,获得声纹特征信息和人脸特征图像,通过声纹特征信息和声纹识别模型获得第一考勤分数,并通过人脸特征图像和人脸识别模型获得第二考勤分数,综合第一考勤分数和第二考勤分数获得最终的考勤结果。本发明通过人脸识别和声纹识别获得两个考勤分数,并综合两个考勤分数得出学生最终的考勤结果,本发明方便了教师在线上课堂上进行考勤工作,降低了教师在线上课堂的考勤工作的工作量,使得学生的考勤结果更为准确,提高了学生的考勤结果的置信度。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top