“语音提示用户”专利关键词查询_检索下载_查询列表_检索列表_行业专利分布_钻瓜专利网

钻瓜专利网为您找到相关结果1643253个，建议您升级VIP下载更多相关专利

[发明专利]一种音色克隆方法、系统、装置及计算机可读存储介质-CN202110408975.8有效
发明人：黄一鸣;李一夫;陈哲乾 -专利权人：杭州一知智能科技有限公司
申请日： 2021-04-16 - 公布日： 2021-08-20 - 主分类号： G10L19/16 文献下载
摘要：本发明公开了一种音色克隆方法、系统、装置及计算机可读存储介质，方法包括以下步骤：制作多说话人数据集并处理；训练对齐模型；制作目标说话人数据集并处理；训练多说话人语音合成模型；训练多说话人声码器模型；获取具有目标说话人音色的目标人语音合成模型；将待合成文本输入至目标人语音合成模型完成语音合成。本发明的有益效果是：目标说话人的风格和音色能够被更好的学习；可以通过指定韵律标签的方式来指定韵律节奏；使用时长预测模型来进行发音序列与频谱序列的对齐，加快语音生成的推理速度；在解码阶段添加音高和能量的预测和编码，目标人语音合成模型添加了音高和能量的预测与编码，有效的提高语音合成的效果。
一种音色克隆方法系统装置计算机可读存储介质

[发明专利]模型训练、语音识别方法及装置、电子设备及存储介质-CN202110235852.9有效
发明人：徐高鹏;李成飞;杨嵩 -专利权人：北京世纪好未来教育科技有限公司
申请日： 2021-03-03 - 公布日： 2021-05-07 - 主分类号： G10L15/06 文献下载
摘要：本申请实施例提供了一种模型训练、语音识别方法及装置、电子设备及存储介质，涉及语音识别技术领域，模型训练方法包括：获取第一对象和第二对象分别对应的多个样本语音数据，以及样本语音数据对应的文本信息和身份信息；对样本语音数据进行编码处理，得到声学特征信息；对声学特征信息进行特征提取和预测处理，得到对应的身份特征信息和预测身份信息；对声学特征信息和身份特征信息进行解码处理，得到第一预测文本信息；基于预测身份信息和身份信息确定身份损失值；以及基于第一预测文本信息和文本信息确定文本损失值；根据身份损失值和文本损失值确定目标损失值，并基于目标损失值对语音识别模型进行训练。本申请可以提高语音识别的准确性。
模型训练语音识别方法装置电子设备存储介质

[发明专利]一种基于自监督课程学习的语音和视觉关联性增强方法-CN202011338294.0有效
发明人：徐行;张静然;沈复民;邵杰;申恒涛 -专利权人：电子科技大学
申请日： 2020-11-25 - 公布日： 2021-09-24 - 主分类号： G06K9/62 文献下载
摘要：本发明公开了一种基于自监督课程学习的语音和视觉关联性增强方法，涉及多模态的语音和视觉特征表征学习领域。该方法利用对比学习，在teacher‑student框架下提出一种自监督课程学习语音和视觉关联性增强方法，可以保证在无需人工标注的视频数据集上进行训练，以获取高效的语音和视觉表征，并应用于下游任务中。具体地，本发明提出一种两阶段的学习方法来进行语音和视频帧序列对对比学习，以克服直接进行teacher‑student迁移学习的困难性；其次，利用语音和视觉信息的关联性作为潜在自监督信号进行对比迁移训练。本发明获取的语音和视觉卷积网络可弥补下游任务数据集不足而导致的训练困难问题。
一种基于监督课程学习语音视觉关联性增强方法

[发明专利]基于轻量级神经网络的含噪语音性别识别方法及系统-CN202110032437.3有效
发明人：张瑜;袁斌 -专利权人：北京快鱼电子股份公司
申请日： 2021-01-12 - 公布日： 2021-05-14 - 主分类号： G10L17/02 文献下载
摘要：本发明公开了一种基于轻量级神经网络的含噪语音性别识别方法及系统，包括基于纯净男女语音音频和纯噪声音频合成含噪语音；提取含噪语音的音频特征；音频特征仅包括多个BFCC特征以及部分BFCC特征的一阶时间导数和二阶时间导数，基音增益值，基频周期值，语音短时过零率；基于音频特征构建轻量级神经网络模型并进行训练；轻量级神经网络模型包括语音活度分支、降噪分支和性别分类分支；基于轻量级神经网络模型进行含噪语音性别预测；该方法在延时
基于轻量级神经网络语音性别识别方法系统

[发明专利]语音引导操作方法、装置、电子设备及存储介质-CN202011600793.2有效
发明人：熊文龙;邓志伟 -专利权人：智道网联科技（北京）有限公司
申请日： 2020-12-30 - 公布日： 2021-03-16 - 主分类号： G06F3/16 文献下载
摘要：本发明提供一种语音引导操作方法、装置、电子设备及存储介质，其中方法包括：接收对车载智能终端上的应用程序的语音操作指令；其中，语音操作指令被预先配置为与应用程序的界面上的可执行操作功能具有对应关系，可执行操作功能包括应用程序的当前界面可通过触摸方式执行的随机操作；根据语音操作指令在应用程序中确定可执行操作功能和可通过触摸方式执行的随机操作；根据可执行操作功能和可通过触摸方式执行的随机操作，在应用程序中执行语音操作指令对应的操作指令。本发明应用于现有的智能终端时，无需事先单独为每个应用集成语音操作的工具包，只需在移动终端启动本发明的运行，即可实现在智能终端的后台跨不同应用程序的语音引导操作。
语音引导操作方法装置电子设备存储介质

[发明专利]基于双向上下文的非自回归语音识别网络、方法及设备-CN202111066812.2有效
发明人：不公告发明人 -专利权人：珠海亿智电子科技有限公司
申请日： 2021-09-13 - 公布日： 2021-11-16 - 主分类号： G10L15/08 文献下载
摘要：本发明适用于人类语言处理技术领域，提供了一种基于双向上下文的非自回归语音识别网络、方法、设备及存储介质，本发明提供的语音识别网络采用Transformer的编码器‑解码器结构，语音识别网络的编码器用于对输入的语音特征进行初步识别，得到初步识别结果，语音识别网络的解码器用于利用由初步识别结果提供的双向语言信息对初步识别结果进行调整，并输出最终的语音识别结果，其中，解码器通过预设的、应用于解码器的每个多头自注意力层的注意力掩码利用双向语言信息，从而充分了利用了语言信息，提高了语音识别效果，且相较于使用两个单向解码器分别利用单向语言信息的方法，结构更加高效统一。
基于双向上下文回归语音识别网络方法设备

[发明专利]基于云边端协同的物体识别系统-CN202110727918.6有效
发明人：许振阳;王岩;田会峰;刘禄辰;周宇;赵玉寒;刘泽林 -专利权人：张家港江苏科技大学产业技术研究院
申请日： 2021-06-29 - 公布日： 2022-02-25 - 主分类号： G06V20/10 文献下载
摘要：本发明公开了基于云边端协同的物体识别系统，属于物体识别技术领域，包括语音交互模块、图片存储模块、实时监控模块和图像识别智能语音手杖，所述语音交互模块、图片存储模块及实时监控模块的输出端与云服务器计算处理模块的输入端相连接，所述云服务器计算处理模块、语音测距报警模块、物体检测与识别模块、GPS位置信息采集模块及摔倒邮件呼救模块的输出端与图像识别智能语音手杖的输入端电性连接；本发明充分利用云服务器开发了各种新功能，包括实时远程监控、一键拍照存云以及智能语音交互，此外，在对各功能模块进行选择调用后，还分别实现了测距语音警报、跌倒自动求救以及GPS实时定位，功能强大。
基于云边端协同物体识别系统

[发明专利]一种基于深度学习的语音驱动3D人物面部表情方法-CN202111321780.6有效
发明人：赵锐;候志迎;李帆 -专利权人：江苏原力数字科技股份有限公司
申请日： 2021-11-09 - 公布日： 2022-02-08 - 主分类号： G06T13/40 文献下载
摘要：本发明提供一种基于深度学习的语音驱动3D人物面部表情方法，包括以下步骤：从制作好的动画中获取语音并提取语音特征以得到融合语音特征，将其与控制器参数对应起来构成训练数据；搭建深度学习网络模型，对语音特征从多个维度进行建模，得到抽象特征用于训练和回归预测，得到面部表情控制器参数；将融合语音特征输入上述模型中，通过实际输出与目标输出的均方误差，利用Adam优化器最小化误差，优化网络参数，得到最终模型；将语音特征经过处理后输入深度学习网络模型中
一种基于深度学习语音驱动人物面部表情方法

[发明专利]语音屏幕鼠标校核下的图标安全操作方法-CN201810713169.X有效
发明人：王立松 -专利权人：南京铁道职业技术学院
申请日： 2018-06-29 - 公布日： 2022-04-01 - 主分类号： G06F3/04817 文献下载
摘要：语音屏幕鼠标校核下的图标安全操作方法，通过操作者发出语音所关联的图标、屏幕上显示用来指定操作的图标和鼠标停止移动时所指向的图标进行校核比对，由系统给出操作的权限和警告，其基本特征是首先建立特定语音与图标的关联，通过语音识别系统的语音输入激活相关联图标，再与鼠标停止移动时所指向的图标进行校核比对。针对触摸屏计算机和移动终端而言，通过操作者发出语音所关联的图标、屏幕上显示用来指定操作的图标进行二元校核，由系统给出操作的权限。此外，还能针对已有系统提供影子系统进行防护。本发明利用现代语音识别工具，将人的行为通过电脑系统进行校核，最大限度确保操作正确，避免事故发生。
语音屏幕鼠标校核图标安全操作方法

[发明专利]语音唤醒方法、装置、设备及计算机可读存储介质-CN201910857371.4有效
发明人：刘金财;刘驰;于向丽 -专利权人：中国联合网络通信集团有限公司
申请日： 2019-09-11 - 公布日： 2022-04-15 - 主分类号： G10L15/02 文献下载
摘要：本发明提供一种语音唤醒方法、装置、设备及计算机可读存储介质。本发明的方法，通过根据第一预设时段内语音唤醒失败的语音数据，确定适用于当前场景的目标特征提取模型；响应于语音唤醒指令，分别通过原始特征提取模型和所述目标特征提取模型对输入语音进行特征提取处理，得到第一关键词和第二关键词；将所述第一关键词和第二关键词分别与唤醒词进行匹配；若所述第一关键词和第二关键词中的至少一个与唤醒词匹配成功，则唤醒设备，可以减少输入语音正确但是识别出的关键词与唤醒词不匹配导致唤醒失败的情况发生，提高了语音唤醒的成功率低
语音唤醒方法装置设备计算机可读存储介质

[发明专利]视频时序矫正方法、矫正终端及计算机可读存储介质-CN201811304919.4有效
发明人：彭湃 -专利权人：深圳TCL新技术有限公司
申请日： 2018-11-02 - 公布日： 2022-04-22 - 主分类号： H04N21/43 文献下载
摘要：本发明公开了一种视频时序矫正方法，提取待矫正视频中的音频数据，识别出音频数据中人物声音对应的语音文本；从预先建立的文本口型数据库中，获取语音文本对应的文本口型波形；记录人物声音播放的语音时间区段，根据语音时间区段和文本口型波形生成语音口型波形；提取待矫正视频中的视频数据，获取视频数据中人物画面对应的画面口型波形；比较语音口型波形和画面口型波形的相似性，根据比较结果矫正视频中语音和画面时序。
视频时序矫正方法终端计算机可读存储介质

[发明专利]基于管制员指令语义识别的机场管制决策支持系统及方法-CN202010511325.1有效
发明人：诸葛晶昌;邢志伟;杨新宇;丁宁宁 -专利权人：中国民航大学
申请日： 2020-06-08 - 公布日： 2022-04-29 - 主分类号： G10L15/22 文献下载
摘要：系统包括语音采集模块、噪声处理模块、语音识别模块、语义识别模块、冲突识别模块和显示报警终端；本发明优点：能有效杜绝在管制过程中的因人为因素而造成的事故及其事故征候，可大大提高飞机地面运行安全。区别于普通语音识别和语义识别，针对的是航空管制特有的语音发音，进行语音语调的数据标注，最终构建出符合机场管制标准用语的语音库。无需场监雷达辅助，也不依赖高级场面活动引导控制系统，无需在管制席以外进行任何设备的安装或改造，仅需在管制席位上安装语音采集装置和显示报警终端，是极具经济性和实用性的机场管制决策支持系统。
基于管制指令语义识别机场决策支持系统方法

[发明专利]一种面向听觉诱发的端到端脑电信号解码方法-CN202110900607.5有效
发明人：郭一娜;晋朝;张晓飞;赵珍 -专利权人：太原科技大学
申请日： 2021-08-06 - 公布日： 2022-04-12 - 主分类号： G06K9/00 文献下载
摘要：本发明公开了一种面向听觉诱发的端到端脑电信号解码方法，包括以下步骤：S1、获取待测人员的脑电数据以及解码后的语音数据；S2、对所述脑电数据和语音数据进行预处理；S3、对预处理后的数据进行分类识别，获得脑电数据集、脑电/语音数据集和语音数据集；S4、构建双DualGAN网络模型，基于所述脑电数据集、所述脑电/语音数据集和所述语音数据集对所述双DualGAN网络模型进行训练，获得训练好的所述双DualGAN网络模型，对所述待测人员的脑电数据进行解码，获得语音信号。
一种面向听觉诱发端到端脑电信号解码方法

[发明专利]基于谱特征和ELM的语音情感识别方法-CN201911189489.0有效
发明人：张健沛;史芝欣;杨静;王勇 -专利权人：哈尔滨工程大学
申请日： 2019-11-28 - 公布日： 2022-04-12 - 主分类号： G10L25/63 文献下载
摘要：本发明提供的是一种基于谱特征和ELM的语音情感识别方法。原始语音信号进行基本特征提取包括韵律特征、音质特征；利用Teager能量算子TEO算法提取梅尔频率倒谱系数MFCC和耳蜗滤波倒谱系数CFCC，二者加权得到teCMFCC特征，并与基本特征值进行融合，构建特征矩阵；用Fisher准则和相关分析对特征进行选择降维，保留语音信号的个性特征；建立极限学习机ELM决策树模型，完成语音情感识别分类。本发明强调了语音信号的非线性特征，具有很好的鲁棒性，在中国科学院自动化研究所录制的CASIA中文情感语料库上进行实验，验证提出的基于谱特征和ELM的语音情感识别算法对中文语音信号具有很好的分类识别精度。
基于特征 elm 语音情感识别方法

[发明专利]语音端点的确定方法及装置、存储介质、电子装置-CN201910995464.3有效
发明人：陈烈 -专利权人：浙江大华技术股份有限公司
申请日： 2019-10-18 - 公布日： 2022-04-19 - 主分类号： G10L15/04 文献下载
摘要：本发明实施例提供了一种语音端点的确定方法及装置、存储介质、电子装置，所述方法包括：对获取的音频信号进行预处理，得到多个子带，其中，音频信号包括N个音频信号帧，N为大于1的整数，子带是基于频带对音频信号帧进行划分得到的；根据子带的信噪比与谱熵之比，得到音频信号帧的信噪比与谱熵之比；根据音频信号帧的信噪比与谱熵之比，使用双门限检测算法判断音频信号帧是否为语音帧；若是，将音频信号的第一帧语音帧和最后一帧语音帧分别确定为音频信号的语音起始端点和语音终止端点解决了相关技术中语音端点检测只针对某单一特征进行检测导致准确率较低的问题。
语音端点确定方法装置存储介质电子