专利名称
主分类
A 农业
B 作业;运输
C 化学;冶金
D 纺织;造纸
E 固定建筑物
F 机械工程、照明、加热
G 物理
H 电学
专利下载VIP
公布日期
2023-10-24 公布专利
2023-10-20 公布专利
2023-10-17 公布专利
2023-10-13 公布专利
2023-10-10 公布专利
2023-10-03 公布专利
2023-09-29 公布专利
2023-09-26 公布专利
2023-09-22 公布专利
2023-09-19 公布专利
更多 »
专利权人
国家电网公司
华为技术有限公司
浙江大学
中兴通讯股份有限公司
三星电子株式会社
中国石油化工股份有限公司
清华大学
鸿海精密工业股份有限公司
松下电器产业株式会社
上海交通大学
更多 »
钻瓜专利网为您找到相关结果1643253个,建议您升级VIP下载更多相关专利
  • [发明专利]用无序实体训练端到端口语理解系统-CN202211011659.8在审
  • 郭宏光;Z.图斯克;S.托马斯;B.E.D.金斯伯里;G.A.萨昂 - 国际商业机器公司
  • 2022-08-23 - 2023-03-03 - G10L15/06
  • 根据实施例,可以接收训练数据,训练数据可包括语音和与所述语音相关联的含义表示对,作为基本事实数据。含义表示至少包括与语音相关联的语义实体,其中语义实体的说出顺序是未知的。可以使用对准技术,可以将训练数据中的含义表示的语义实体重新排序成相关联的语音的说出顺序。可以使用语音和具有重新排序后的语义实体的含义表示对对来训练口语理解机器学习模型。可扰乱所接收的训练数据中的含义表示,例如语义实体,以创建与语音相关联的语义实体的随机顺序序列变体。扰乱的含义表示与关联的语音一起可以扩充训练数据。
  • 无序实体训练端口理解系统
  • [发明专利]语音合成方法、语音合成装置、电子设备及存储介质-CN202211102117.1在审
  • 张旭龙;王健宗 - 平安科技(深圳)有限公司
  • 2022-09-09 - 2023-01-17 - G10L13/10
  • 本申请提供了一种语音合成方法、语音合成装置、电子设备及存储介质,属于人工智能技术领域。该方法包括:获取待处理的原始音素数据,将原始音素数据输入至预设的语音合成模型;语音合成模型包括声学网络和生成网络;通过声学网络对原始音素数据进行编码处理,得到音素特征向量;通过声学网络对音素特征向量进行韵律标签识别得到原始音素数据的韵律标签特征;通过声学网络对音素特征向量进行声学特征提取,得到原始音素数据的向量量化特征;根据向量量化特征和韵律标签特征进行特征预测,得到原始音素数据的目标韵律特征;通过生成网络对目标韵律特征和向量量化特征进行语音合成,得到目标语音数据。本申请能够提高语音合成的准确性。
  • 语音合成方法装置电子设备存储介质
  • [发明专利]语音信号重建方法、装置、电子设备及存储介质-CN202210917376.3在审
  • 郝雪营;朱大立;曾华林 - 中国科学院信息工程研究所
  • 2022-08-01 - 2022-11-22 - G10L25/30
  • 本发明提供一种语音信号重建方法、装置、电子设备及存储介质,所述方法包括:获取由一组连续帧散斑图像构成的散斑图像序列;将散斑图像序列输入至神经网络模型,获取由神经网络模型输出的散斑振动位移信号,神经网络模型是基于ShuffleNet神经网络构建的;对散斑振动位移信号进行语音增强处理,并将语音增强处理后的散斑振动位移信号作为重建的语音信号。本发明通过基于ShuffleNet神经网络模型获取散斑振动位移信号,并对散斑振动位移信号进行语音增强处理,不仅可以减弱光学系统引起的频率响应问题,提高语音信号重建效率和重建准确度,增强抗干扰能力,而且不受服务器的限制,可以实现在手持设备或移动设备上重建语音信号。
  • 语音信号重建方法装置电子设备存储介质
  • [发明专利]一种基于相似度检测的音频自动剪错方法-CN202210823199.2在审
  • 葛昊宇;薛彦昊;魏立斐;张蕾 - 上海海洋大学
  • 2022-07-13 - 2022-11-01 - G10L25/27
  • 本发明公开了一种基于相似度检测的音频自动剪错方法,针对一段音频自动判断其所有语音段,并对所有语音段进行有限次的相似度比较,对相似度较高音频进行剪错,并保留所有剪错长度和位置信息,自动剪错系统具体实现过程包括如下步骤:预处理、语音段确定(标记确定)、相似段判断、预剪错、剪错,其中相似段判断部分包含了如下的具体实现过程:(1)动态规划获取预判断相似度的语音片段(2)快速傅里叶变换并插值获得两语音段在频域上的相似度(3)计算梅尔频率倒谱系数并进行经过改良的动态时间规整得到两语音段在时域上的相似度。本发明引入动态规划思想设计音频自动剪错系统,极大减少了语音激活检测的次数,使得计算效率极大提升。
  • 一种基于相似检测音频自动方法
  • [发明专利]语音识别方法、电子设备及可读介质-CN202211726603.0在审
  • 谢继亮;王满洪 - 荣耀终端有限公司
  • 2022-12-30 - 2023-09-01 - G10L15/16
  • 本申请提供了一种应用于人工智能技术的语音识别方法、电子设备及介质。语音识别方法,包括:获取语音信号;确定语音信号对应的初始文本数据;对语音信号的每个音频进行编码,得到多个音频的声学编码序列,以及对语音信号对应的初始文本数据进行编码及处理,得到文本编码序列;处理音频的声学编码序列和文本编码序列对音频的声学编码序列进行贪婪搜索,得到音频的声学编码序列中的尖峰声学编码序列;尖峰声学编码序列对应的音频的概率信息中的最大概率值的字符为非空白字符;利用音频的概率信息,对尖峰声学编码序列进行束搜索,得到语音信号对应的文本数据
  • 语音识别方法电子设备可读介质
  • [发明专利]基于语音分析的3D虚拟演讲者驱动方法及相关装置-CN202310781774.1在审
  • 陈观理;黄国恒;黄俊平 - 广州华腾教育科技股份有限公司
  • 2023-06-28 - 2023-09-05 - G10L17/04
  • 本申请公开了基于语音分析的3D虚拟演讲者驱动方法及相关装置,方法包括:通过预置编码器在当前语音信息中分别获取语音内容编码和演讲人信息编码;采用预设自回归概率模型根据语音内容编码和历史头部运动特征预测当前头部运动特征,模型包括残差块;基于LSTM网络模型和第一MLP根据语音内容编码和演讲人信息编码提取风格口型特征;通过第二MLP根据当前头部运动特征和风格口型特征计算口型系数和头部运动系数;依据口型系数、头部运动系数和预置手部动作对本申请能解决现有技术仅考虑语音驱动的口型变化情况,忽略其他动作形态,且驱动因素仅分析语音,太过单一,导致三维虚拟演讲者动作驱动效果较差的技术问题。
  • 基于语音分析虚拟演讲者驱动方法相关装置
  • [发明专利]基于人工智能的语音工单质检方法、装置、设备及介质-CN202310653099.4在审
  • 张博文 - 平安银行股份有限公司
  • 2023-06-02 - 2023-09-05 - G10L15/01
  • 本发明涉及人工智能及金融科技技术领域,公开了一种基于人工智能的语音工单质检方法、装置、设备及介质,包括:获取待质检的语音工单文件;识别出所述语音工单文件对应的目标语种;根据所述目标语种,将所述语音工单文件输入到与所述目标语种对应的语音转换模型中,输出文本文件;根据预设的质检评分维度和预设的评分规则对所述文本文件进行评分,获得每个所述质检评分维度对应的分数;根据各个所述质检评分维度对应的分数获取所述待质检语音工单文件的最终分数。本申请可以更加准确的根据消费者的语音来分析客服人员的服务是否能够满足消费者的诉求,提高对客服人员的服务质量的检测的准确率。
  • 基于人工智能语音质检方法装置设备介质
  • [发明专利]一种语音音色转换方法和系统-CN202310607980.0在审
  • 李雅;韩易辰;高迎明 - 北京邮电大学
  • 2023-05-26 - 2023-09-12 - G10L13/033
  • 本发明提供一种语音音色转换方法和系统,所述方法包括:输入一对训练语音至初始网络模型。利用长短时记忆网络和残差向量量化提取参考音频的音色特征,利用内容向量提取模型去除样本语音的音色,利用基频编码器提取基频特征,利用文本编码器提取样本语音的文本特征。将音色特征、基频特征和文本特征输入先验编码器,将样本语音的线性谱输入后验编码器,利用Flow模型对齐先验编码器和后验编码器的输出,计算概率分布距离作为损失函数,最小化损失以优化各模型的参数。将待转换语音输入训练好的模型中,模型通过声码器输出音色转换后的语音。该方法改进了现有技术中音色未完全转换、生成音色过于机械的问题,可以对任意说话人的音色建模,适用性更广。
  • 一种语音音色转换方法系统
  • [发明专利]语音识别中的诊断服务-CN202180092220.X在审
  • 李昊轩;蒋瑞;刘阳;林恒慷;孙雷;赵澈 - 微软技术许可有限责任公司
  • 2021-11-15 - 2023-09-19 - G10L15/06
  • 提供了一种用于标识目标数据集的系统和方法,其被配置成促进包括在自动语音识别系统中的声学模型的准确度的改进。系统获得测试数据集,该测试数据集包括(i)具有自然语音话语的音频数据和(ii)该自然语音话语的转录。系统基于自然语音话语的转录来生成包括具有合成语音话语的音频数据的文本转语音数据集。系统将测试数据集和文本转语音数据集应用于声学模型以分别获得第一声学模型输出和第二声学模型输出。系统标识第一声学模型输出中的第一错误集和第二声学模型输出中的第二错误集。
  • 语音识别中的诊断服务

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top