专利名称
主分类
A 农业
B 作业;运输
C 化学;冶金
D 纺织;造纸
E 固定建筑物
F 机械工程、照明、加热
G 物理
H 电学
专利下载VIP
公布日期
2023-10-24 公布专利
2023-10-20 公布专利
2023-10-17 公布专利
2023-10-13 公布专利
2023-10-10 公布专利
2023-10-03 公布专利
2023-09-29 公布专利
2023-09-26 公布专利
2023-09-22 公布专利
2023-09-19 公布专利
更多 »
专利权人
国家电网公司
华为技术有限公司
浙江大学
中兴通讯股份有限公司
三星电子株式会社
中国石油化工股份有限公司
清华大学
鸿海精密工业股份有限公司
松下电器产业株式会社
上海交通大学
更多 »
钻瓜专利网为您找到相关结果29个,建议您升级VIP下载更多相关专利
  • [发明专利]多人声模式人机对话系统-CN201811524605.5有效
  • 司马华鹏;陈莉萍;茅玥琪;孙翊杰;陆放;司马德一 - 宿迁硅基智能科技有限公司
  • 2018-12-13 - 2023-09-01 - G10L15/22
  • 本发明公开了一种多人声模式人机对话系统,解决了现有语音交互系统发声模式较为单一的问题,其技术方案要点是,调取模块用于调取存储模块内的语音数据并发送至语音交互模块,语音交互模块根据接收的声音信息和语音数据并通过音频输出模块与用户进行语音交互,本发明的多人声模式人机对话系统,使得用户在和语音交互模块进行语音交互的过程中,能够选择不同声音形式的语音数据包,从而使音频输出模块能够以不同声音模式(如不同年龄阶段的人群)与用户交谈,以适应不同的应用场景,更加人性化;音频录入模块能够采集用户的声音信息,音频输出模块能够以语音形式输出语音交互模块回复的内容,从而实现语音交互模块与用户之间的语音交互。
  • 人声模式人机对话系统
  • [发明专利]训练神经辐射场模型和人脸生成方法、装置及服务器-CN202111096356.6有效
  • 司马华鹏;屈奇勋;范宏伟;李佳斌 - 宿迁硅基智能科技有限公司
  • 2021-09-15 - 2023-06-09 - G06T13/40
  • 本申请提供了训练神经辐射场模型和人脸生成方法、装置及服务器,方法包括:采集预置的训练视频,训练视频至少包括一个训练视频图像,训练视频图像包括图像信息和与图像信息同步的音频信息;将图像信息和音频信息输入至预先建立的初始神经辐射场模型中,输出渲染图像;初始神经辐射场模型包括卷积网络编码器、卷积网络解码器和多模态注意力模块;根据渲染图像与训练视频图像计算得到预设损失函数,预设损失函数用于反向传播并训练初始神经辐射场模型,将训练完成的初始神经辐射场模型作为音频驱动人脸生成的神经辐射场模型。本申请通过使用预设损失函数训练作为音频驱动人脸生成的神经辐射场模型,解决无法实时生成高清音频驱动人脸视频的问题。
  • 训练神经辐射模型生成方法装置服务器
  • [发明专利]一种实时音频驱动人脸生成方法、装置及服务器-CN202111082204.0有效
  • 司马华鹏;屈奇勋;范宏伟;李佳斌 - 宿迁硅基智能科技有限公司
  • 2021-09-15 - 2023-05-30 - G06T13/20
  • 一种实时音频驱动人脸生成方法、装置及服务器,方法包括:获取训练视频的图像信息和与训练视频同步的音频信息;对图像信息进行特征提取,得到每帧图像的人脸姿态特征和像素位置特征;对音频信息进行特征提取,得到每帧图像的音频特征;构建神经辐射场模型,根据每帧图像的人脸姿态特征、像素位置特征和所述音频特征训练神经辐射场模型,以获取目标神经辐射场模型;输入与目标视频同步的音频信息至目标神经辐射场模型中进行图像渲染,以生成当前视角及音频条件下的目标图像。本申请通过使用包括编码器和解码器结构的卷积神经网络作为神经辐射场模型,以及将图像像素位置特征作为输入训练神经辐射场,从而达到实时语音驱动人脸视频的生成。
  • 一种实时音频驱动生成方法装置服务器
  • [发明专利]PPG特征的输出方法、目标音频的输出方法及装置-CN202111019691.6有效
  • 司马华鹏;龚雪飞;毛志强 - 宿迁硅基智能科技有限公司
  • 2021-09-01 - 2023-01-03 - G10L15/02
  • 本申请实施例提供了一种PPG特征的输出方法、目标音频的输出方法及装置,所述方法包括:将源音频数据分片输入语音后验图PPG分类网络模型,其中,PPG分类网络模型包括依次连接的抽象映射层、模块层和PPG层,模块层包括至少两个串联的模块,模块中设置单向长短期记忆功能LSTM层,单向LSTM层配置为学习特征之间的全局依赖信息;通过第一缓存区域保留上一片源音频数据在单向LSMT中的状态数据,通过第二缓存区域保留上一片源音频数据的后面n帧数据;根据当前片源音频数据和第一缓存区域以及第二缓存区域中保存的数据,输出当前片源音频数据对应PPG特征。
  • ppg特征输出方法目标音频装置
  • [发明专利]基于因果卷积的音频驱动表情方法及装置-CN202210723651.8在审
  • 司马华鹏;廖铮;唐翠翠 - 宿迁硅基智能科技有限公司
  • 2021-08-06 - 2022-11-01 - G06T13/20
  • 本申请实施例提供了一种基于因果卷积的音频驱动表情方法及装置,所述方法包括:对获取的目标音频数据进行特征提取,得到目标音频特征向量;将目标音频特征向量和目标标识输入音频驱动动画模型;将目标音频特征向量输入包含多层卷积层的音频编码层,根据上一层t时刻和t‑n时刻之间的输入特征向量确定下一层(2t‑n)/2时刻的输入特征向量,将与上一层的输入特征向量有因果关系的特征向量确定为有效特征向量,依次根据每一层的有效特征向量输出目标音频编码特征,并将目标标识输入独热编码层进行二进制向量编码,得到目标标识编码特征;根据目标音频编码特征和目标标识编码特征,通过音频驱动动画模型输出目标音频数据对应的混合变形值。
  • 基于因果卷积音频驱动表情方法装置
  • [发明专利]基于并行计算的语音识别模型及确定方法-CN202210719923.7在审
  • 司马华鹏;蒋达;汤毅平 - 宿迁硅基智能科技有限公司
  • 2021-08-06 - 2022-09-23 - G06F40/126
  • 本申请实施例提供了一种基于并行计算的语音识别模型及确定方法,所述模型包括:嵌入查找层,配置为将输入文本中的每个字符转换为字符嵌入向量;深度学习层,包括线性变化单元与遗忘门单元,遗忘门单元配置为,根据当前时序对应的字符嵌入向量得到遗忘门结果;深度学习层配置为,对不同时序对应的多个字符嵌入向量进行并行处理以得到不同时序对应的多个输出结果,并根据多个输出结果输出与输入文本对应的第一特征向量;条件随机场层,配置为根据第一特征向量确定输入文本的每个字符对应的符号标签,其中,符号标签用于指示对应字符相邻的标点符号类型或无标点状态。解决了相关技术中无法快速有效地实现语音识别后的文本中的标点符号预测的问题。
  • 基于并行计算语音识别模型确定方法
  • [发明专利]事件发生概率的确定方法、存储介质及电子装置-CN202111205257.7有效
  • 司马华鹏;汤毅平;姚奥 - 宿迁硅基智能科技有限公司
  • 2021-10-15 - 2022-07-29 - G06V20/52
  • 本申请实施例提供了一种事件发生概率的确定方法、存储介质及电子装置,属于音频数据识别技术领域,所述方法包括:通过拾音设备获取目标区域的音频数据,根据所述音频数据与所述判定条件,确定第一独立事件和/或第二独立事件;在确定发生所述第一独立事件和所述第二独立事件的情况下,通过所述拾音设备分别确定所述第一独立事件的方向信息和所述第二独立事件的方向信息,根据所述第一独立事件确定第一概率值,并根据所述第二独立事件确定第二概率值;根据所述第一独立事件的方向信息和所述第二独立事件的方向信息确定所述第一独立事件和所述第二独立事件的方向偏差;根据第一概率值、第二概率值以及方向偏差确定完整事件发生的概率。
  • 事件发生概率确定方法存储介质电子装置
  • [发明专利]完整事件确定方法、存储介质及电子装置-CN202111207163.3有效
  • 司马华鹏;汤毅平;姚奥 - 宿迁硅基智能科技有限公司
  • 2021-10-15 - 2022-07-29 - G06V20/52
  • 本申请实施例提供了一种完整事件确定方法、存储介质及电子装置,所述方法包括:获取目标区域的音频数据;根据音频数据与预设的判定条件,通过第一神经网络模型确定音频数据中包含的独立事件所对应的第一特征向量;第一神经网络模型为使用第一样本数据训练的卷积神经网络模型,第一神经网络模型包括共享网络层和第一分类层,共享网络层包括A层网络结构,A层网络结构之间共享参数,每一层网络结构包括B层卷积层,在每一层网络结构中,位于中间位置的卷积层的卷积通道数量多于位于输入或输出位置的所述卷积层的卷积通道数量;将第一特征向量输入第二神经网络模型,通过第二神经网络模型确定完整事件发生的概率。
  • 完整事件确定方法存储介质电子装置

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top