[发明专利]音频文件的原唱检测方法、装置、服务器及存储介质在审
申请号: | 202010259245.1 | 申请日: | 2020-04-03 |
公开(公告)号: | CN111508506A | 公开(公告)日: | 2020-08-07 |
发明(设计)人: | 张文文;李岩;姜涛 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G10L17/22 | 分类号: | G10L17/22;G10L17/02;G10L17/04;G10L17/06;G10L17/18;G10L25/51 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 冯右明 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频文件 原唱 检测 方法 装置 服务器 存储 介质 | ||
1.一种音频文件的原唱检测方法,其特征在于,包括:
提取待检测音频文件的音频指纹,根据所述待检测音频文件的音频指纹,确定与所述待检测音频文件对应的歌曲音频文件;
从所述待检测音频文件中分离出人声音频;
分别提取所述人声音频的音频指纹和所述歌曲音频文件的音频指纹;
根据所述人声音频的音频指纹和所述歌曲音频文件的音频指纹,确定对所述待检测音频文件的原唱检测结果。
2.根据权利要求1所述的方法,其特征在于,所述从所述待检测音频文件中分离出人声音频,包括:
将所述待检测音频文件输入预先训练的人声音频分离模型,得到所述待检测音频文件中的人声音频;所述预先训练的人声音频分离模型用于对所述待检测音频文件进行多次卷积处理,得到所述待检测音频文件中的人声音频。
3.根据权利要求2所述的方法,其特征在于,所述预先训练的人声音频分离模型通过下述方式训练得到:
采集包含有实际人声音频的样本音频文件;
根据所述样本音频文件,对待训练的人声音频分离模型进行训练,得到训练后的人声音频分离模型;
获取所述训练后的人声音频分离模型输出的人声音频与所述实际人声音频之间的误差;
当所述误差大于或等于预设误差时,根据所述误差调整所述人声音频分离模型的网络参数,得到调整后的人声音频分离模型,并对所述调整后的人声音频分离模型进行反复训练,直至根据训练后的人声音频分离模型得到的所述误差小于所述预设误差;
若根据训练后的人声音频分离模型得到的所述误差小于所述预设误差,将所述训练后的人声音频分离模型作为所述预先训练的人声音频分离模型。
4.根据权利要求1所述的方法,其特征在于,所述根据所述人声音频的音频指纹和所述歌曲音频文件的音频指纹,确定对所述待检测音频文件的原唱检测结果,包括:
将所述人声音频的音频指纹和所述歌曲音频文件的音频指纹进行匹配,得到所述人声音频的音频指纹和所述歌曲音频文件的音频指纹之间的音频指纹匹配数;
若所述音频指纹匹配数大于第一预设阈值,则确认所述待检测音频文件包含所述歌曲音频文件的原唱。
5.根据权利要求1所述的方法,其特征在于,所述提取待检测音频文件的音频指纹,包括:
获取所述待检测音频文件的频谱信息;
识别所述频谱信息中的峰值信号,根据所述频谱信息中的峰值信号,确定所述待检测音频文件的音频指纹。
6.根据权利要求1所述的方法,其特征在于,所述根据所述待检测音频文件的音频指纹,确定与所述待检测音频文件对应的歌曲音频文件,包括:
将所述待检测音频文件的音频指纹与预设歌曲音频文件的音频指纹进行匹配,得到所述待检测音频文件的音频指纹与所述预设歌曲音频文件的音频指纹之间的音频指纹匹配数;
若所述音频指纹匹配数大于第二预设阈值,则将所述预设歌曲音频文件识别为与所述待检测音频文件对应的歌曲音频文件。
7.根据权利要求1至6任一项所述的方法,其特征在于,在根据所述人声音频的音频指纹和所述歌曲音频文件的音频指纹,确定对所述待检测音频文件的原唱检测结果之后,还包括:
从预设数据库中获取所述歌曲音频文件的标签信息;所述预设数据库中存储有多个歌曲音频文件的标签信息;
将所述标签信息,识别为所述待检测音频文件的标签信息。
8.一种音频文件的原唱检测装置,其特征在于,包括:
歌曲音频文件确定单元,被配置为执行提取待检测音频文件的音频指纹,根据所述待检测音频文件的音频指纹,确定与所述待检测音频文件对应的歌曲音频文件;
人声音频分离单元,被配置为执行从所述待检测音频文件中分离出人声音频;
音频指纹提取单元,被配置为执行分别提取所述人声音频的音频指纹和所述歌曲音频文件的音频指纹;
原唱检测结果确定单元,被配置为执行根据所述人声音频的音频指纹和所述歌曲音频文件的音频指纹,确定对所述待检测音频文件的原唱检测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010259245.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:闭门结构、冰箱
- 下一篇:一种碳化复合竹编新型土工材料及其制备方法和应用
- 同类专利
- 业务流程执行方法及其装置、设备、存储介质和程序产品-202210376989.0
- 王莹童;唐海波;江君;李利敏;王艳美;王航宇;雷春辉;王惠娇;周韶赓;赵慧莉 - 中移在线服务有限公司;中国移动通信集团有限公司
- 2022-04-12 - 2023-10-27 - G10L17/22
- 本申请提供了一种业务流程执行方法及其装置、设备、存储介质和程序产品,该方法包括:接收交互式语音应答IVR系统发送的用户的语音交互请求;响应于语音交互请求,获取用户的画像信息;根据画像信息,确定用户的实际业务意图,以及与实际业务意图匹配的用户问句;根据用户问句调用智能客服执行目标业务流程,目标业务流程与实际业务意图相匹配。根据本申请实施例,可以直接根据用户的画像信息分析出用户的实际业务意图,并匹配出实际业务意图的用户问句,进而可以直接调用智能客服执行目标业务流程,无需再引导用户说出用户问句,减少了用户与智能客服之间的交互次数,从而提高了业务流程执行过程的便捷性和效率。
- 一种户外作业人员声纹识别电子工牌-202311022193.6
- 夏百战;惠勇;庄楷泽;陈幸明;胡棕宪;叶立威;张攀 - 电子科技大学中山学院;中山市易知科技服务有限公司
- 2023-08-15 - 2023-10-24 - G10L17/22
- 本发明提供一种户外作业人员声纹识别电子工牌,包括:工牌本体、佩戴组件、固定组件一、固定组件二以及拔卡器,所述工牌本体上端右后侧插装有拔卡器,所述工牌本体后表面上侧铰接有佩戴组件,与现有技术相比,本发明具有如下的有益效果:通过在工牌本体上设置佩戴组件,使得使用者可以根据自身需要选择工牌本体的佩戴方式,在使用者的衣服不便于对工牌进行挂装时,可以将佩戴组件打开,将收纳在主体件内的吊绳放出,将整个工牌通过吊绳挂在脖子上即可,佩戴方便,且在户外工作时,不易因碰撞而使得工牌本体掉落,在需要装在衣服上时,将佩戴组件和吊绳收起并固定,而后利用主体件和弹性片将整个工牌本体挂装在使用者胸前的衣服上即可。
- 一种语音处理方法、装置、电子设备及存储介质-201911398330.X
- 刘浩;任海海 - 北京猎户星空科技有限公司
- 2019-12-30 - 2023-10-24 - G10L17/22
- 本发明实施例提供了一种语音处理方法、装置、电子设备及存储介质。该方法包括:获取智能设备采集的待识别语音信息以及所述待识别语音信息包含的各个语音片段对应的播报状态信息;其中,每个语音片段对应的播报状态信息表征在采集该语音片段时所述智能设备是否在进行语音播报;基于所获取的播报状态信息,确定所述待识别语音信息的声音类型。与现有技术相比,应用本发明实施例提供的方案,能够提高对语音信息的声音类型的识别准确率。
- 语音性别识别方法、装置、计算机设备和存储介质-202210307379.5
- 谭应伟;丁雪枫 - 大众问问(北京)信息科技有限公司
- 2022-03-25 - 2023-10-03 - G10L17/22
- 本申请涉及一种语音性别识别方法、装置、计算机设备和存储介质。该方法包括:获取待识别语音数据,从待识别语音数据中提取得到目标语音特征;将目标语音特征输入至目标说话者分类模型,通过目标说话者分类模型对目标语音特征进行预测,得到第一说话者特征向量;将目标语音特征输入至高斯混合模型,通过高斯混合模型对目标语音特征进行计算,得到第二说话者特征向量;根据第一说话者特征向量和第二说话者特征向量拼接得到目标说话者特征向量;将目标说话者特征向量输入至目标语音性别分类模型,通过目标语音性别分类模型对目标说话者特征向量进行分类,得到目标语音性别识别结果。采用本方法能够提高语音性别识别准确率。
- 模型训练、音频处理方法、装置、设备、存储介质及程序-202210269922.7
- 陈立;邹赛赛;许楠 - 北京百度网讯科技有限公司
- 2022-03-18 - 2023-09-26 - G10L17/22
- 本公开提供了模型训练、音频处理方法、装置、设备、存储介质及程序,涉及人工智能领域,尤其涉及语音交互、自然语言处理、深度学习技术。具体实现方案为:获取第一训练样本,第一训练样本包括:第一纯净唤醒音频和第一回声唤醒音频;通过待训练的回声消除模型对第一回声唤醒音频进行回声消除处理,得到第一预测唤醒音频;根据第一预测唤醒音频和第一纯净唤醒音频,对回声消除模型的模型参数进行更新,更新的目标为:唤醒识别模型对第一预测唤醒音频的唤醒识别结果趋近于对第一纯净唤醒音频的唤醒识别结果。通过上述训练过程,提升了回声消除模型输出的音频能够被唤醒识别模型准确识别的概率,因此,能够提高回声场景下的电子设备的唤醒成功率。
- 智能设备的误唤醒测试方法、装置和存储介质及电子装置-202310724136.6
- 高鑫 - 海尔优家智能科技(北京)有限公司;青岛海尔科技有限公司;海尔智家股份有限公司
- 2023-06-16 - 2023-09-19 - G10L17/22
- 本发明公开了一种智能设备的误唤醒测试方法、装置和存储介质及电子装置。其中,该方法包括:获取智能设备在误唤醒测试阶段过程中的唤醒音频集合;在唤醒音频集合中的异常唤醒音频数量小于或等于第一预设阈值、且唤醒音频集合中的正常唤醒音频数量大于或等于第二预设阈值的情况下,确定智能设备通过误唤醒测试阶段;在唤醒音频集合中的异常唤醒音频数量大于第一预设阈值、或唤醒音频集合中的正常唤醒音频数量小于第二预设阈值的情况下,确定智能设备未通过误唤醒测试阶段。本发明解决了智能设备的误唤醒测试的准确性较低技术问题。
- 语音唤醒方法、设备及存储介质-202210838956.3
- 吴彪;夏日升 - 荣耀终端有限公司
- 2022-07-18 - 2023-09-19 - G10L17/22
- 本申请提供了一种语音唤醒方法、设备及存储介质。该方法通过为包括不同参数的唤醒词预先绑定对应的目标声纹阈值和目标声纹模型,使得声纹验证时能够因人、因唤醒词而选取不同的目标声纹模型和目标声纹阈值,这样在接收到语音数据时,并确定接收到的语音数据中包括预先注册的唤醒词时,通过利用该唤醒词绑定的目标声纹模型对语音数据进行声纹验证,根据该唤醒词绑定的目标声纹阈值对声纹验证结果进行判决,就能够精准的识别唤醒词和唤醒人,从而提高语音唤醒的精准度,降低误闯的情况发生。
- 基于音视频记忆网络和多模态信息流对话生成方法及系统-202310686474.5
- 王钰;王延峰;陈哲;刘泓呈 - 上海交通大学
- 2023-06-09 - 2023-09-15 - G10L17/22
- 本发明提供了一种基于音视频记忆网络和多模态信息流对话生成方法及系统,包括:步骤S1:对音频与视频分别进行预处理,提取模态对齐过的音频数据和视频数据的语义表征;步骤S2:利用音视频记忆网络将语言模型提取的文本语义信息与音视频信息融合,得到融合音视频信息的对话上下文信息;步骤S3:对融合音视频信息的对话上下文信息作为流信息进行建模;步骤S4:对于当前待回复的问句,对话模型结合音视频信息以自回归的方式生成每个词,生成语句回复。本发明利用音视频记忆网络的多层注意力机制来实现不同模态信息的高效融合,相较于其他融合方法能够更好地融合多模态信息。
- 晾衣机的语音播报控制方法、装置、存储介质和设备-202310667294.2
- 王妙玉;陈嘉乐;周亮;吴宁泉;欧宝星 - 广东好太太科技集团股份有限公司
- 2023-06-06 - 2023-09-15 - G10L17/22
- 本申请提供一种晾衣机的语音播报控制方法、装置、存储介质和设备,所述晾衣机的语音播报控制方法包括:获取语音播报功能开启指令,开启语音播报功能;获取语音播报数据;所述语音播报数据包括语音播报参数和语音播报条件;当满足所述语音播报条件时,根据所述语音播报参数使晾衣机执行语音播报功能。本申请基于用户设置的语音播报条件,根据用户设置的语音播报参数启动晾衣机的语音播报功能,提高用户操作晾衣机时的互动体验感,并且通过语音播报功能,方便用户更容易地熟悉晾衣机的操作。
- 一种基于孪生网络的声纹识别方法-202310960642.5
- 陈虹君;考铭堃;魏一鹏;李瑞林;余磊鋆;罗福强;李瑶;赵力衡;马磊;王建;高杨;杜立峰;何香霓;李鹏雨;申致尧 - 成都锦城学院
- 2023-08-01 - 2023-09-12 - G10L17/22
- 本发明公开了一种基于孪生网络的声纹识别方法,属于声纹识别领域,该方法包括获取由若干组语音训练样本对组成的初始数据;根据初始数据,利用孪生神经网络,得到声纹识别模型;获取待验证语音和语音数据库;根据待验证语音和语音数据库,利用声纹识别模型,得到声纹识别结果。本发明解决了声纹识别过程语音信息各维度相关性低的问题,且小量数据集也能达到较好的效果,提高了声纹识别准确率。
- 一种语音交互方法、装置及车辆-202310727792.1
- 樊倩;张亭亭 - 长城汽车股份有限公司
- 2023-06-19 - 2023-09-08 - G10L17/22
- 本申请提供一种语音交互方法、装置及车辆,该语音交互方法包括:获取用户输入的第一语音信息;确定所述用户对应的身份信息;获取用于响应所述第一语音信息且与所述用户的身份信息匹配的回复信息;输出所述回复信息作为所述第一语音信息的应答。本申请通过获取用户输入的第一语音信息,并确定用户对应的身份信息,获取用于响应第一语音信息且与用户的身份信息匹配的回复信息,并将回复信息信息作为第一语音信息的应答,使得在获取到具有不同身份信息的用户的语音信息时,可以基于身份信息进行差异化的语音响应,可以增加用户进行语音交互的趣味性,提升用户体验。
- 声纹识别方法、装置、电子设备和介质-202310776757.9
- 黎明欣;刘金山;黄淋;饶宇熹 - 中国工商银行股份有限公司
- 2023-06-28 - 2023-08-22 - G10L17/22
- 本公开提供了一种声纹识别方法,涉及人工智能领域。该方法包括:获取用户声音及用户周围的环境噪声;将所述用户声音输入第一编码器,以及将所述环境噪声的上下文输入第二编码器,其中,所述环境噪声的上下文从所述环境噪声中获得;基于所述用户声音、所述第一编码器的输出结果以及所述第二编码器的输出结果,得到解码器的输入数据;利用所述解码器处理所述输入数据,提取所述用户的声纹特征进行声纹识别。可以增强对用户声音识别有用的信息,消除对声纹识别没用的信息,起到抗干扰效果,提升系统的鲁棒性,并能够解决串联方式下不同模型的错误信息相互累积问题,同时提升系统效率。本公开还提供了一种声纹识别装置、设备、存储介质和程序产品。
- 一种用于电表安装的语音辅助系统及方法-202310450468.X
- 韦庆杰;张宇;刘歆;钱鹰;陈奉;姜美兰;卫丽娟 - 重庆邮电大学
- 2023-04-24 - 2023-08-18 - G10L17/22
- 本发明涉及一种用于电表安装的语音辅助系统及方法,包括:数据获取模块、声纹特征提取模块、语音分析模块、权限模块、命令生成模块、通讯模块、语音播报模块、存储模块;基于语音智能的辅助安装、调试电表方法和系统,建立了安装人员语音与电表之间的交互关系,使得安装人员能用语音辅助电表的安装和调试;将语音与声纹识别相结合,避免了非安装人员的语音干扰,减少了误操作的发生;将安装人员声音特征转化为声纹特征向量并存储,在进行声纹识别时直接调用,无需重复进行转化过程;本发明能够直接在便携终端和电表之间进行通讯,并能够同步电表和远程服务器二者的信息,提高安装人员的安装效率和安装人员的安全。
- 校园场景下基于冲突事件的语音信息处理方法及相关装置-202310044598.3
- 王一 - 深圳市人马互动科技有限公司
- 2023-01-30 - 2023-08-18 - G10L17/22
- 本申请实施例提供了一种基于场景下事件的语音信息处理方法及相关装置,可以在满足监测条件时,获取环境声音信息,然后根据环境声音信息中的目标词语确定出用户在该事件中所扮演的角色,并根据用户的身份有针对性地进行引导,在用户为事件发起者时,及时提示用户以制止用户行为,且在用户为事件承受者时,通过与用户对话获取用户针对该事件的想法,并提出对应的建议,充分尊重用户意愿,也使得用户可以更容易接受建议,且可以降低对事件的判断时的数据处理复杂度。
- 交互以及识别方法、装置、终端设备及计算机存储介质-201910119857.8
- 张平;肖兵兵;邢冬杰;秦京;孙尧 - 阿里巴巴集团控股有限公司
- 2019-02-18 - 2023-08-11 - G10L17/22
- 本发明实施例提供了一种交互以及识别方法、装置、终端设备及计算机存储介质,交互方法包括:获取智能设备采集的声音,并确定与智能设备关联的声纹库,声纹库中用于存储智能设备的用户对应的声纹模板;根据声纹库中存储的声纹模板,对采集的声音的声纹进行识别,以从智能设备的用户中确定采集的声音对应的用户,使得智能终端提供与用户对应的服务内容。本发明实施例提供的方案,通过与智能设备关联的声纹库,存储智能设备的用户对应的声纹模板,以减小用于识别的声纹模板的数量,提高识别效率,并从智能设备的用户中准确地确定采集的声音对应的用户,避免了识别错误的情况。
- 一种语音人机交互方法、装置-202310843070.2
- 钟雨崎;艾国;杨作兴 - 北京边锋信息技术有限公司
- 2023-07-11 - 2023-08-08 - G10L17/22
- 本申请公开了一种语音人机交互方法、装置,该方法包括:获取当前语音信号并进行语音检测,在检测到语音的情形下,对所检测到的语音进行语音内容识别,在所识别的语音内容中包括当前允许的指令词集中的指令词的情形下,基于所包括的指令词生成当前指令,其中,当前允许的指令词集根据被控设备的当前运行状态确定,利用历史交互信息中与当前指令信息相同的历史指令信息,对当前指令进行校验,其中,历史交互信息包括:历次语音人机交互过程中所生成的指令信息,根据校验结果,确定是否执行当前指令,并将当前指令信息作为本次交互信息予以记录。本申请实现了免唤醒词的情形下可靠地进行交互。
- 一种语音唤醒方法、电子设备及芯片系统-202210831759.9
- 王耀光;夏日升 - 荣耀终端有限公司
- 2022-07-15 - 2023-08-04 - G10L17/22
- 本申请提供一种语音唤醒方法、电子设备及芯片系统,涉及语音控制技术领域;该方法可以在支持设置自定义唤醒词的电子设备中,设置一个或多个自定义唤醒词,并在注册该自定义唤醒词时为自定义唤醒词设置较大的声纹阈值,在后续唤醒过程中,将电子设备中已经验证过的语音模板作为先验信息,以进一步判断接收到的唤醒语音是否能够将电子设备的语音功能唤醒,在接收到的唤醒语音能够将电子设备的语音功能唤醒的情况下,可以基于该接收到的唤醒语音进一步调整该自定义唤醒词的声纹阈值,以得到更为合适的声纹阈值;从而降低自定义唤醒词对应的语音唤醒失败的情况。
- 一种低信噪比环境下的语音唤醒方法及装置-202310605815.1
- 朱海;王昆;周琳岷 - 四川启睿克科技有限公司;四川长虹电子控股集团有限公司
- 2023-05-26 - 2023-08-01 - G10L17/22
- 本发明涉及语音技术领域,其公开了一种低信噪比环境下的语音唤醒方法及装置,提高低信噪比环境下的语音唤醒性能。本发明中的语音唤醒方法包括:S1、获取语音样本数据,利用对所述语音样本数据的仿真模拟获得训练数据集;S2、利用所述训练数据集对具有软阈值化处理功能的语音唤醒模型进行训练,获得训练完成的语音唤醒模型;S3、在应用场景下,以获取的待预测语音数据作为输入,利用训练完成的语音唤醒模型输出预测结果。本发明方案在对语音信号进行处理时加入了软阈值化处理,其能够对输入信号进行分解后再对分解后的信号进行多尺度的噪声过滤,从而提高在低信噪比环境下语音唤醒的性能。本发明适用于低信噪比环境下的语音设备唤醒。
- 说话人转换点的检测方法、训练检测模型的方法及装置-202310085306.0
- 王绘;郑斯奇;陈亚峰;程路遥 - 阿里巴巴达摩院(杭州)科技有限公司
- 2023-01-11 - 2023-08-01 - G10L17/22
- 本申请实施例公开了一种说话人转换点的检测方法、训练检测模型的方法及装置,涉及人工智能和语音处理技术。其中方法包括:将待检测音频切分成两个以上的预设时长的音频段;依据从各音频段中提取的声纹特征对两个以上的音频段进行聚类处理,得到两个以上的类簇;从两个以上的音频段中确定一个以上的候选段对,各候选段对包括相邻的两个音频段且该相邻的两个音频段属于不同的类簇;将候选段对对应的帧序列输入转换点检测模型,获取转换点检测模型预测的帧序列中各帧对应的说话人标签,转换点检测模型基于深度学习模型预先训练得到;利用帧序列中各帧对应的说话人标签,确定说话人转换点信息。本申请能够提高说话人转换点检测的准确性。
- 一种用于车辆自动滑移门的声纹身份验证方法-202310273308.2
- 陈家峥;张斌 - 桂林电子科技大学
- 2023-03-20 - 2023-07-25 - G10L17/22
- 本发明公开了一种用于车辆自动滑移门的声纹身份验证方法,首先搭建基于改进ECAPA‑TDNN的声纹识别模型,使用了依赖于通道和上下文的注意力机制,关注每个特征图在不同时间步长上的特征属性。通过挤压激励块和Res2Net的结合,构建分层残差连接来处理多尺度特征。此外,在网络的底层引入不同时间上下文大小的多时延单元扫描输入序列,对模型在时间维度上的多尺度特征提取能力进行增强。在模型训练方面,针对训练数据应用了多角度的数据增强策略,以提高预训练模型的鲁棒性;在后端余弦相似度打分部分结合了动态分数归一化方法,减少了注册语音和测试语音之间的得分受到环境差别、语义内容不同等因素的影响。在模型的使用上,通过匹配系统注册阶段和验证阶段获得的声纹嵌入码,计算分数,高于设定阈值则控制门锁有刷电机驱动输出模块执行开锁动作。
- 设置设备操作权限的方法、装置以及电子设备-202310245765.0
- 黄润乾;张伟彬;陈东鹏 - 深圳市声扬科技有限公司
- 2023-03-15 - 2023-07-21 - G10L17/22
- 本申请公开了一种设置设备操作权限的方法、装置、电子设备以及存储介质,涉及语音识别技术领域。该方法应用于第一电子设备,通过若接收到第二电子设备的操作请求,则获取第二电子设备的身份信息作为第一身份信息,其中,操作请求由第二电子设备基于用户输入的语音生成;获取第一电子设备的身份信息作为第二身份信息;基于第一身份信息以及第二身份信息,设置第二电子设备对第一电子设备的操作权限。本申请通过语音识别第二电子设备向第一电子设备发送的操作请求,并进一步根据各电子设备的身份信息设置第二电子设备对第一电子设备的操作权限,实现了电子设备之间的互联互动,提高了用户的体验感。
- 语音交互系统、方法、电子设备和存储介质-202211131821.X
- 梅林海;刘颖;刘权;王士进;高建清;刘聪;胡国平 - 科大讯飞股份有限公司
- 2022-09-16 - 2023-07-11 - G10L17/22
- 本发明提供一种语音交互系统、方法、电子设备和存储介质,系统包括:声学采集组件,用于采集用户语音流;语音识别组件,用于对用户语音流执行语音端点检测和语音识别,得到识别文本;对话处理组件,用于对识别文本执行自然语言理解、对话管理和自然语言生成,得到交互文本;语音合成组件,用于对交互文本执行语音合成操作,得到交互合成语音;语音播报组件,用于播报交互合成语音;用户语音流的采集通过上行通道执行,交互合成语音的播报通过下行通道执行,上下行通道并行。本发明提供的系统、方法、电子设备和存储介质,使得用户与机器之间的交互可以更加贴近真实的对话习惯,保证了语音交互的自然性。
- 物联网设备控制方法及装置-202111608496.7
- 林木溪 - 美的集团股份有限公司;广东美的制冷设备有限公司
- 2021-12-22 - 2023-06-27 - G10L17/22
- 本发明涉及移动通信技术领域,提供一种物联网设备控制方法及装置。该方法包括:第一物联网平台向第二物联网平台发送目标用户的验证声纹信息;验证声纹信息用于第二物联网平台进行验证声纹信息与目标用户的预存声纹信息的对比验证;在验证通过的情况下,第一物联网平台接收第二物联网平台发送的访问令牌以及与第二物联网平台关联的物联网设备列表;第一物联网平台根据访问令牌向第二物联网平台发送控制指令;控制指令用于第二物联网平台控制物联网设备列表中的物联网设备。本发明提供的物联网设备控制方法及装置,通过单一的语音交互即可完成物联网设备的跨平台控制的过程,减少用户繁琐的操作步骤和操作时间,提升用户体验。
- 一种基于声纹识别的语音降噪方法、装置、设备及介质-202310267948.2
- 尹青山;冯落落;李沛;黄洋 - 山东新一代信息产业技术研究院有限公司
- 2023-03-15 - 2023-06-23 - G10L17/22
- 本申请公开了一种基于声纹识别的语音降噪方法、装置、设备及介质,方法包括:获取指定人员的声纹模板信息,以及包括所述指定人员语音的场景音频;对所述场景音频进行语音分离,以得到多个单一人员分别对应的人员音频,所述人员音频中包括场景噪音;通过对所述人员音频以及所述声纹模板信息进行匹配,以确定所述指定人员对应的指定人员音频;对所述指定人员音频进行降噪处理,以得到目标音频。通过对场景音频进行语音分离,并在多个单一人员对应的人员音频中对指定人员对应的音频进行匹配,从而能够得到指定人员对应的音频,从而在有多说话人对话的场景语音中,能够将语音中除目标说话人外的其他音频均视为噪声,并保留目标说话人语音。
- 车辆语音交互方法及汽车中控系统-202310247784.7
- 罗国辉;张莹;冉光伟;刘棨;沈仲孝 - 星河智联汽车科技有限公司
- 2023-03-14 - 2023-06-23 - G10L17/22
- 本发明公开了一种车辆语音交互方法及汽车中控系统,该方法通过在汽车中控系统唤醒后,对用于唤醒所述汽车中控系统的第一语音信息进行声纹识别,得到第一声纹信息;在汽车中控系统的唤醒阶段,采集车内用户的至少一条第二语音信息,并对至少一条所述第二语音信息进行声纹识别,得到相应第二语音信息的第二声纹信息;根据所述第一声纹信息和至少一条所述第二声纹信息,从至少一条所述第二语音信息中确定目标语音信息;对所述目标语音信息进行解析,得到相应的控制指令,并根据所述控制指令控制车辆执行相应操作,通过声纹匹配,可以准确识别发起用户的下一条语音指令,避免车内其他用户的语音干扰,降低语音识别错误的风险。
- 语音活动检测方法、装置、计算机设备及存储介质-202211090025.6
- 张星东;招梓枫;丁卓 - 南京龙垣信息科技有限公司
- 2022-09-07 - 2023-06-23 - G10L17/22
- 本方案涉及一种语音活动检测方法、装置、计算机设备及存储介质。所述方法包括:随机采样语音片段并加入噪声数据拼接成多人对话仿真录音;通过可学习自监督语音表征模型对仿真录音进行编码处理后输入至门控循环单元中,得到活动语音检测特征;获取目标语者注册语音,并将目标语者注册语音输入至通道注意与传播聚合网络中,得到目标语者声纹特征;采集待检测语音,并将待检测语音、目标语者注册语音输入至双向编码器网络中,得到验证特征;将活动语音检测特征、目标语者声纹特征、验证特征依次输入至语音活动检测模型中,得到检测结果。由于输入的特征多元化,可以提高语音活动检测模型的检测结果,从而提高语音活动检测的准确率。
- 一种可视化人声分离系统、方法以及装置-202111437237.2
- 屈丹;杨绪魁;李静涛;闫红刚;李喜坤;陈琦;邱泽宇 - 中国人民解放军战略支援部队信息工程大学;郑州信大先进技术研究院
- 2021-11-30 - 2023-06-06 - G10L17/22
- 本发明属于人工智能人声分离技术领域,特别涉及一种可视化人声分离系统、方法以及装置,该方法包括打开可视化人声分离系统,把要分离的音/视频文件导入系统中;把音/视频转换成和人声分离算法相匹配的音频格式;把要处理的音频文件进行逻辑切分,按时间先后顺序进行分句,最终形成每句话包含说话人名称、开始时间和结束时间的json文件;把分离后的结果在界面上进行展示,音频文件以波形形式展示在上半部分,解析后的json文件以列表形式展示在下半部分;在结果展示界面进行每句话的播放和调整,实现精准人声分离;把分离好的人声分句,根据需求进行选中导出。本发明在人工智能人声分离算法基础上,进行界面可视化的手动调整,达到精准人声分离效果。
- 一种声纹识别方法及控制设备-202111420325.1
- 张淯易;高雪松;陈维强 - 海信集团控股股份有限公司
- 2021-11-26 - 2023-05-30 - G10L17/22
- 本申请实施例公开了一种声纹识别方法及控制设备,该控制设备可以接收来自智能设备的认证请求,所述认证请求中包括第一语音数据;所述处理器被配置为对所述第一语音数据进行识别,获得加密的第一声纹信息;根据所述第一声纹信息和保存的第二声纹信息进行认证,得到认证结果。该方法实现了对用户的声纹信息的隐私保护,并在数据处理过程中保持了加密状态,能够在不影响声纹识别效率和准确率的情况下,提升用户隐私数据的安全性。
- 信用卡解锁方法、装置、设备及计算机可读存储介质-201910424278.4
- 彭捷 - 平安科技(深圳)有限公司
- 2019-05-21 - 2023-05-30 - G10L17/22
- 本发明涉及人工智能技术领域,公开了一种信用卡解锁方法、装置、设备及计算机可读存储介质,信用卡解锁方法包括:与交易密码被锁定的信用卡对应的用户端建立通话连接,并输出预置的语音至该用户端,然后接收来自客户端的语音回复,并根据对语音回复的识别结果,输出对应的语音至用户端,或执行对应的处理步骤,直至处理流程完结。通过本发明,以语音自助的方式为用户提供信用卡密码解锁服务,降低了银行的人工成本,提供了服务质量。
- 基于计算机视觉辅助的正面人机交互语音识别方法及系统-201811448360.2
- 邱霖恺;刘维;王贤俊;高刚强;郑文侃;宋煌钟 - 福建实达电脑设备有限公司
- 2018-11-30 - 2023-05-23 - G10L17/22
- 本发明涉及基于计算机视觉辅助的正面人机交互语音识别方法及系统,通过在传统语音识别流程中加入视频信号输入,与语音信号一同识别;在人脸识别和人脸唇部运动识别中进行语音辅助,判断是否所要识别的目标正在说话;同时,通过人脸识别和辅助定位,判断说话人方位,并利用相应方位,对指定方向声源信号进行增强处理。本发明可以有效增强在特定环境下,例如自助零售终端、银行自助终端、保险自助终端等需要客户正面面对设备的人机交互使用场景,对客户语音命令和语音输入信息识别的准确率。
- 专利分类