“语音提示用户”专利关键词查询_检索下载_查询列表_检索列表_行业专利分布_钻瓜专利网

钻瓜专利网为您找到相关结果1643253个，建议您升级VIP下载更多相关专利

[发明专利]用无序实体训练端到端口语理解系统-CN202211011659.8在审
发明人：郭宏光;Z.图斯克;S.托马斯;B.E.D.金斯伯里;G.A.萨昂 -专利权人：国际商业机器公司
申请日： 2022-08-23 - 公布日： 2023-03-03 - 主分类号： G10L15/06 文献下载
摘要：根据实施例，可以接收训练数据，训练数据可包括语音和与所述语音相关联的含义表示对，作为基本事实数据。含义表示至少包括与语音相关联的语义实体，其中语义实体的说出顺序是未知的。可以使用对准技术，可以将训练数据中的含义表示的语义实体重新排序成相关联的语音的说出顺序。可以使用语音和具有重新排序后的语义实体的含义表示对对来训练口语理解机器学习模型。可扰乱所接收的训练数据中的含义表示，例如语义实体，以创建与语音相关联的语义实体的随机顺序序列变体。扰乱的含义表示与关联的语音一起可以扩充训练数据。
无序实体训练端口理解系统

[发明专利]语音合成方法、语音合成装置、电子设备及存储介质-CN202211102117.1在审
发明人：张旭龙;王健宗 -专利权人：平安科技（深圳）有限公司
申请日： 2022-09-09 - 公布日： 2023-01-17 - 主分类号： G10L13/10 文献下载
摘要：本申请提供了一种语音合成方法、语音合成装置、电子设备及存储介质，属于人工智能技术领域。该方法包括：获取待处理的原始音素数据，将原始音素数据输入至预设的语音合成模型；语音合成模型包括声学网络和生成网络；通过声学网络对原始音素数据进行编码处理，得到音素特征向量；通过声学网络对音素特征向量进行韵律标签识别得到原始音素数据的韵律标签特征；通过声学网络对音素特征向量进行声学特征提取，得到原始音素数据的向量量化特征；根据向量量化特征和韵律标签特征进行特征预测，得到原始音素数据的目标韵律特征；通过生成网络对目标韵律特征和向量量化特征进行语音合成，得到目标语音数据。本申请能够提高语音合成的准确性。
语音合成方法装置电子设备存储介质

[发明专利]语音识别方法、装置、计算机可读存储介质及计算机设备-CN202210939628.2在审
发明人：朱成志;万根顺;刘聪;胡国平;刘庆峰 -专利权人：科大讯飞股份有限公司
申请日： 2022-08-05 - 公布日： 2022-11-08 - 主分类号： G10L15/00 文献下载
摘要：本申请实施例公开了一种语音识别方法、装置、计算机可读存储介质及计算机设备，可以实现端到端的多种语种免切换的语音识别，对多种语种统一建立预设语音识别模型，该预设语音识别模型包括预设互联的语种所对应的独立参数模块与共享参数模块，预设数量的语种所对应的独立参数模块分别与语种对应，利用共享参数模块共用模型参数，如此，不管输入的是哪种语种的待识别的语音数据，都可以利用共享参数模块，降低预设语音识别模型的模型参数，同时由于独立参数模块进行了语种绑定，即独立参数模块分别根据语种分别设置独立参数，避免了不同语种之间的相互影响，降低了语种混淆度，提高多语种语音识别的准确率。
语音识别方法装置计算机可读存储介质设备

[发明专利]语音识别方法、模型训练方法、装置、介质、电子设备-CN202211033301.5在审
发明人：周立峰;朱浩齐;杨卫强;李雨珂;魏凯峰 -专利权人：杭州网易智企科技有限公司
申请日： 2022-08-26 - 公布日： 2022-11-22 - 主分类号： G10L15/06 文献下载
摘要：本公开的实施方式涉及计算机技术领域，更具体地，本公开的实施方式涉及语音识别方法、模型训练方法、装置、介质、电子设备。方法包括：将待识别音频数据输入至第一语音特征提取子模型，得到待识别音频数据的初始特征数据；将初始特征数据输入第二语音特征提取子模型中，第二语音特征提取子模型包括频域分支以及时域分支，频域分支用于输出待识别音频数据的频域特征数据，时域分支用于输出的待识别音频数据的时域特征数据；将频域特征数据和时域特征数据输入语音鉴伪子模型中，得到待识别音频数据的分类结果，分类结果用以指示待识别音频数据是否为真实语音。本公开的技术方案能够提高语音识别的效率。
语音识别方法模型训练装置介质电子设备

[发明专利]语音信号重建方法、装置、电子设备及存储介质-CN202210917376.3在审
发明人：郝雪营;朱大立;曾华林 -专利权人：中国科学院信息工程研究所
申请日： 2022-08-01 - 公布日： 2022-11-22 - 主分类号： G10L25/30 文献下载
摘要：本发明提供一种语音信号重建方法、装置、电子设备及存储介质，所述方法包括：获取由一组连续帧散斑图像构成的散斑图像序列；将散斑图像序列输入至神经网络模型，获取由神经网络模型输出的散斑振动位移信号，神经网络模型是基于ShuffleNet神经网络构建的；对散斑振动位移信号进行语音增强处理，并将语音增强处理后的散斑振动位移信号作为重建的语音信号。本发明通过基于ShuffleNet神经网络模型获取散斑振动位移信号，并对散斑振动位移信号进行语音增强处理，不仅可以减弱光学系统引起的频率响应问题，提高语音信号重建效率和重建准确度，增强抗干扰能力，而且不受服务器的限制，可以实现在手持设备或移动设备上重建语音信号。
语音信号重建方法装置电子设备存储介质

[发明专利]一种基于相似度检测的音频自动剪错方法-CN202210823199.2在审
发明人：葛昊宇;薛彦昊;魏立斐;张蕾 -专利权人：上海海洋大学
申请日： 2022-07-13 - 公布日： 2022-11-01 - 主分类号： G10L25/27 文献下载
摘要：本发明公开了一种基于相似度检测的音频自动剪错方法，针对一段音频自动判断其所有语音段，并对所有语音段进行有限次的相似度比较，对相似度较高音频进行剪错，并保留所有剪错长度和位置信息，自动剪错系统具体实现过程包括如下步骤：预处理、语音段确定(标记确定)、相似段判断、预剪错、剪错，其中相似段判断部分包含了如下的具体实现过程：(1)动态规划获取预判断相似度的语音片段(2)快速傅里叶变换并插值获得两语音段在频域上的相似度(3)计算梅尔频率倒谱系数并进行经过改良的动态时间规整得到两语音段在时域上的相似度。本发明引入动态规划思想设计音频自动剪错系统，极大减少了语音激活检测的次数，使得计算效率极大提升。
一种基于相似检测音频自动方法

[发明专利]模型训练方法和装置、语音合成方法、设备和存储介质-CN202210906287.9在审
发明人：郭洋;王健宗 -专利权人：平安科技（深圳）有限公司
申请日： 2022-07-29 - 公布日： 2022-11-01 - 主分类号： G10L13/02 文献下载
摘要：本发明实施例提供模型训练方法和装置、语音合成方法、设备和存储介质，涉及人工智能技术领域。模型训练方法通过获取训练数据集，获取用于训练注意力单元中单调对齐损失函数和用于训练语音合成模型中的预设损失函数，基于预设损失函数，结合语音输出向量和对应的语音标签对语音合成模型进行训练，对语音合成模型的模型参数进行调整，直至损失函数的值满足预设条件时，得到训练好的语音合成模型，在训练过程中，基于单调对齐损失函数对注意力权重序列进行单调性训练。
模型训练方法装置语音合成设备存储介质

[发明专利]基于深度学习的多模态图像语音解读方法和系统-CN202210777466.7在审
发明人：王丽;汤影;缪昊洋 -专利权人：成都理工大学
申请日： 2022-07-04 - 公布日： 2022-11-01 - 主分类号： G10L13/08 文献下载
摘要：本发明公开了一种基于深度学习的多模态图像语音解读方法和系统，该方法包括搭建图像描述神经网络并训练得到图像描述神经网络模型；搭建语音转换神经网络并训练得到语音转换神经网络模型；获取待语音解读的图像，经图像描述神经网络模型翻译成文字序列、再经语音转换神经网络模型输出与文字序列对应的语音音频。本发明用于实现对无文字图片内容的理解并用语音的方式对图片中存在的对象及多个对象之间的关系、行为进行解读。有助于视觉障碍者对身边环境的实时了解，有助于该类人群的日常生活。
基于深度学习多模态图像语音解读方法系统

[发明专利]一种基于自然语义识别的巡检机器人远程控制系统及方法-CN202211359834.2在审
发明人：苏磊;曹博源;徐琴 -专利权人：国网上海市电力公司
申请日： 2022-11-02 - 公布日： 2023-03-21 - 主分类号： G06F16/25 文献下载
摘要：本发明公开了一种基于自然语义识别的巡检机器人远程控制系统，包括语音交互设备、巡检机器人、远程控制系统和数据库；所述语音交互设备用于将采集到的语音数据发送给远程控制系统的自然语义识别模块，并将接收到的远程控制系统的语音转换模块发送的语音数据进行播放本发明充分发挥语音的便利性，通过语音实现对巡检机器人的行为控制，有效地避免了手动驱动的操作步骤多、流程长且控制项多等问题，大幅地提高工作效率；本发明可在不对远程控制系统的页面、后台接口等程序进行全面修改的情况下
一种基于自然语义识别巡检机器人远程控制系统方法

[发明专利]语音识别方法、电子设备及可读介质-CN202211726603.0在审
发明人：谢继亮;王满洪 -专利权人：荣耀终端有限公司
申请日： 2022-12-30 - 公布日： 2023-09-01 - 主分类号： G10L15/16 文献下载
摘要：本申请提供了一种应用于人工智能技术的语音识别方法、电子设备及介质。语音识别方法，包括：获取语音信号；确定语音信号对应的初始文本数据；对语音信号的每个音频进行编码，得到多个音频的声学编码序列，以及对语音信号对应的初始文本数据进行编码及处理，得到文本编码序列；处理音频的声学编码序列和文本编码序列对音频的声学编码序列进行贪婪搜索，得到音频的声学编码序列中的尖峰声学编码序列；尖峰声学编码序列对应的音频的概率信息中的最大概率值的字符为非空白字符；利用音频的概率信息，对尖峰声学编码序列进行束搜索，得到语音信号对应的文本数据
语音识别方法电子设备可读介质

[发明专利]基于语音分析的3D虚拟演讲者驱动方法及相关装置-CN202310781774.1在审
发明人：陈观理;黄国恒;黄俊平 -专利权人：广州华腾教育科技股份有限公司
申请日： 2023-06-28 - 公布日： 2023-09-05 - 主分类号： G10L17/04 文献下载
摘要：本申请公开了基于语音分析的3D虚拟演讲者驱动方法及相关装置，方法包括：通过预置编码器在当前语音信息中分别获取语音内容编码和演讲人信息编码；采用预设自回归概率模型根据语音内容编码和历史头部运动特征预测当前头部运动特征，模型包括残差块；基于LSTM网络模型和第一MLP根据语音内容编码和演讲人信息编码提取风格口型特征；通过第二MLP根据当前头部运动特征和风格口型特征计算口型系数和头部运动系数；依据口型系数、头部运动系数和预置手部动作对本申请能解决现有技术仅考虑语音驱动的口型变化情况，忽略其他动作形态，且驱动因素仅分析语音，太过单一，导致三维虚拟演讲者动作驱动效果较差的技术问题。
基于语音分析虚拟演讲者驱动方法相关装置

[发明专利]基于人工智能的语音工单质检方法、装置、设备及介质-CN202310653099.4在审
发明人：张博文 -专利权人：平安银行股份有限公司
申请日： 2023-06-02 - 公布日： 2023-09-05 - 主分类号： G10L15/01 文献下载
摘要：本发明涉及人工智能及金融科技技术领域，公开了一种基于人工智能的语音工单质检方法、装置、设备及介质，包括：获取待质检的语音工单文件；识别出所述语音工单文件对应的目标语种；根据所述目标语种，将所述语音工单文件输入到与所述目标语种对应的语音转换模型中，输出文本文件；根据预设的质检评分维度和预设的评分规则对所述文本文件进行评分，获得每个所述质检评分维度对应的分数；根据各个所述质检评分维度对应的分数获取所述待质检语音工单文件的最终分数。本申请可以更加准确的根据消费者的语音来分析客服人员的服务是否能够满足消费者的诉求，提高对客服人员的服务质量的检测的准确率。
基于人工智能语音质检方法装置设备介质

[发明专利]一种机场保障人员的语音识别方法、系统及手持终端-CN202310967114.2在审
发明人：范珍艳;陈娟;张芳;孙瀚博;倪守娟;张丽;刘伟;刘青;刘晓疆 -专利权人：青岛民航凯亚系统集成有限公司
申请日： 2023-08-03 - 公布日： 2023-09-05 - 主分类号： G10L15/06 文献下载
摘要：本发明属于语音识别技术领域，公开了一种机场保障人员的语音识别方法、系统及手持终端。该方法将获取的语音信号进行稀疏表示；使用K‑SVD算法对稀疏表示后的语音信号进行字典学习，训练出多个清音字典和多个浊音字典；将多个清音字典构成组合清音字典，将多个浊音字典构成浊音组合字典；将待测语音信号分别在组合浊音字典和组合清音字典上进行稀疏表示本发明根据稀疏度的大小判别清音和浊音，检测出待测语音信号的有效语音，提高清浊音判决的准确性，提升机场保障人员上报保障节点的准确性，有助于机场指挥中心监管保障环节的上报进度、上报正常率。
一种机场保障人员语音识别方法系统手持终端

[发明专利]一种语音音色转换方法和系统-CN202310607980.0在审
发明人：李雅;韩易辰;高迎明 -专利权人：北京邮电大学
申请日： 2023-05-26 - 公布日： 2023-09-12 - 主分类号： G10L13/033 文献下载
摘要：本发明提供一种语音音色转换方法和系统，所述方法包括：输入一对训练语音至初始网络模型。利用长短时记忆网络和残差向量量化提取参考音频的音色特征，利用内容向量提取模型去除样本语音的音色，利用基频编码器提取基频特征，利用文本编码器提取样本语音的文本特征。将音色特征、基频特征和文本特征输入先验编码器，将样本语音的线性谱输入后验编码器，利用Flow模型对齐先验编码器和后验编码器的输出，计算概率分布距离作为损失函数，最小化损失以优化各模型的参数。将待转换语音输入训练好的模型中，模型通过声码器输出音色转换后的语音。该方法改进了现有技术中音色未完全转换、生成音色过于机械的问题，可以对任意说话人的音色建模，适用性更广。
一种语音音色转换方法系统

[发明专利]语音识别中的诊断服务-CN202180092220.X在审
发明人：李昊轩;蒋瑞;刘阳;林恒慷;孙雷;赵澈 -专利权人：微软技术许可有限责任公司
申请日： 2021-11-15 - 公布日： 2023-09-19 - 主分类号： G10L15/06 文献下载
摘要：提供了一种用于标识目标数据集的系统和方法，其被配置成促进包括在自动语音识别系统中的声学模型的准确度的改进。系统获得测试数据集，该测试数据集包括(i)具有自然语音话语的音频数据和(ii)该自然语音话语的转录。系统基于自然语音话语的转录来生成包括具有合成语音话语的音频数据的文本转语音数据集。系统将测试数据集和文本转语音数据集应用于声学模型以分别获得第一声学模型输出和第二声学模型输出。系统标识第一声学模型输出中的第一错误集和第二声学模型输出中的第二错误集。
语音识别中的诊断服务