“宿迁硅基智能科技有限公司”申请（专利权）人搜索_中国专利权人_发明人_技术持有人_科研专家_钻瓜专利网

钻瓜专利网为您找到相关结果29个，建议您升级VIP下载更多相关专利

[发明专利]多人声模式人机对话系统-CN201811524605.5有效
发明人：司马华鹏;陈莉萍;茅玥琪;孙翊杰;陆放;司马德一 -专利权人： 宿迁硅基智能科技有限公司
申请日： 2018-12-13 - 公布日： 2023-09-01 - 主分类号： G10L15/22 文献下载
摘要：本发明公开了一种多人声模式人机对话系统，解决了现有语音交互系统发声模式较为单一的问题，其技术方案要点是，调取模块用于调取存储模块内的语音数据并发送至语音交互模块，语音交互模块根据接收的声音信息和语音数据并通过音频输出模块与用户进行语音交互，本发明的多人声模式人机对话系统，使得用户在和语音交互模块进行语音交互的过程中，能够选择不同声音形式的语音数据包，从而使音频输出模块能够以不同声音模式（如不同年龄阶段的人群）与用户交谈，以适应不同的应用场景，更加人性化；音频录入模块能够采集用户的声音信息，音频输出模块能够以语音形式输出语音交互模块回复的内容，从而实现语音交互模块与用户之间的语音交互。
人声模式人机对话系统

[发明专利]训练神经辐射场模型和人脸生成方法、装置及服务器-CN202111096356.6有效
发明人：司马华鹏;屈奇勋;范宏伟;李佳斌 -专利权人： 宿迁硅基智能科技有限公司
申请日： 2021-09-15 - 公布日： 2023-06-09 - 主分类号： G06T13/40 文献下载
摘要：本申请提供了训练神经辐射场模型和人脸生成方法、装置及服务器，方法包括：采集预置的训练视频，训练视频至少包括一个训练视频图像，训练视频图像包括图像信息和与图像信息同步的音频信息；将图像信息和音频信息输入至预先建立的初始神经辐射场模型中，输出渲染图像；初始神经辐射场模型包括卷积网络编码器、卷积网络解码器和多模态注意力模块；根据渲染图像与训练视频图像计算得到预设损失函数，预设损失函数用于反向传播并训练初始神经辐射场模型，将训练完成的初始神经辐射场模型作为音频驱动人脸生成的神经辐射场模型。本申请通过使用预设损失函数训练作为音频驱动人脸生成的神经辐射场模型，解决无法实时生成高清音频驱动人脸视频的问题。
训练神经辐射模型生成方法装置服务器

[发明专利]一种实时音频驱动人脸生成方法、装置及服务器-CN202111082204.0有效
发明人：司马华鹏;屈奇勋;范宏伟;李佳斌 -专利权人： 宿迁硅基智能科技有限公司
申请日： 2021-09-15 - 公布日： 2023-05-30 - 主分类号： G06T13/20 文献下载
摘要：一种实时音频驱动人脸生成方法、装置及服务器，方法包括：获取训练视频的图像信息和与训练视频同步的音频信息；对图像信息进行特征提取，得到每帧图像的人脸姿态特征和像素位置特征；对音频信息进行特征提取，得到每帧图像的音频特征；构建神经辐射场模型，根据每帧图像的人脸姿态特征、像素位置特征和所述音频特征训练神经辐射场模型，以获取目标神经辐射场模型；输入与目标视频同步的音频信息至目标神经辐射场模型中进行图像渲染，以生成当前视角及音频条件下的目标图像。本申请通过使用包括编码器和解码器结构的卷积神经网络作为神经辐射场模型，以及将图像像素位置特征作为输入训练神经辐射场，从而达到实时语音驱动人脸视频的生成。
一种实时音频驱动生成方法装置服务器

[发明专利]一种视频合成方法及视频合成器-CN202111161929.9有效
发明人：司马华鹏;华冰涛;汤毅平;汪成;靳超超 -专利权人： 宿迁硅基智能科技有限公司
申请日： 2021-09-30 - 公布日： 2023-04-14 - 主分类号： H04N21/234 文献下载
摘要：本申请提供了一种视频合成方法及视频合成器，通过视频合成器可以自动匹配目标文本与视频素材，以快速确定目标视频素材。同时，视频合成器在确定目标视频素材时，综合考虑了目标文本中对应不同内容类别的文本与视频素材的标签的匹配度，以及目标文本的文本摘要与视频素材的描述文本的匹配度，以确保所确定的目标视频素材与目标文本的内容准确对应，进而可以保证由目标视频素材合成的目标视频可以准确展示待处理文本所要表达的内容。
一种视频合成方法合成器

[发明专利]PPG特征的输出方法、目标音频的输出方法及装置-CN202111019691.6有效
发明人：司马华鹏;龚雪飞;毛志强 -专利权人： 宿迁硅基智能科技有限公司
申请日： 2021-09-01 - 公布日： 2023-01-03 - 主分类号： G10L15/02 文献下载
摘要：本申请实施例提供了一种PPG特征的输出方法、目标音频的输出方法及装置，所述方法包括：将源音频数据分片输入语音后验图PPG分类网络模型，其中，PPG分类网络模型包括依次连接的抽象映射层、模块层和PPG层，模块层包括至少两个串联的模块，模块中设置单向长短期记忆功能LSTM层，单向LSTM层配置为学习特征之间的全局依赖信息；通过第一缓存区域保留上一片源音频数据在单向LSMT中的状态数据，通过第二缓存区域保留上一片源音频数据的后面n帧数据；根据当前片源音频数据和第一缓存区域以及第二缓存区域中保存的数据，输出当前片源音频数据对应PPG特征。
ppg 特征输出方法目标音频装置

[发明专利]基于因果卷积的音频驱动表情方法及装置-CN202210723651.8在审
发明人：司马华鹏;廖铮;唐翠翠 -专利权人： 宿迁硅基智能科技有限公司
申请日： 2021-08-06 - 公布日： 2022-11-01 - 主分类号： G06T13/20 文献下载
摘要：本申请实施例提供了一种基于因果卷积的音频驱动表情方法及装置，所述方法包括：对获取的目标音频数据进行特征提取，得到目标音频特征向量；将目标音频特征向量和目标标识输入音频驱动动画模型；将目标音频特征向量输入包含多层卷积层的音频编码层，根据上一层t时刻和t‑n时刻之间的输入特征向量确定下一层(2t‑n)/2时刻的输入特征向量，将与上一层的输入特征向量有因果关系的特征向量确定为有效特征向量，依次根据每一层的有效特征向量输出目标音频编码特征，并将目标标识输入独热编码层进行二进制向量编码，得到目标标识编码特征；根据目标音频编码特征和目标标识编码特征，通过音频驱动动画模型输出目标音频数据对应的混合变形值。
基于因果卷积音频驱动表情方法装置

[发明专利]基于并行计算的语音识别模型及确定方法-CN202210719923.7在审
发明人：司马华鹏;蒋达;汤毅平 -专利权人： 宿迁硅基智能科技有限公司
申请日： 2021-08-06 - 公布日： 2022-09-23 - 主分类号： G06F40/126 文献下载
摘要：本申请实施例提供了一种基于并行计算的语音识别模型及确定方法，所述模型包括：嵌入查找层，配置为将输入文本中的每个字符转换为字符嵌入向量；深度学习层，包括线性变化单元与遗忘门单元，遗忘门单元配置为，根据当前时序对应的字符嵌入向量得到遗忘门结果；深度学习层配置为，对不同时序对应的多个字符嵌入向量进行并行处理以得到不同时序对应的多个输出结果，并根据多个输出结果输出与输入文本对应的第一特征向量；条件随机场层，配置为根据第一特征向量确定输入文本的每个字符对应的符号标签，其中，符号标签用于指示对应字符相邻的标点符号类型或无标点状态。解决了相关技术中无法快速有效地实现语音识别后的文本中的标点符号预测的问题。
基于并行计算语音识别模型确定方法

[发明专利]一种视频素材的标签生成方法及装置-CN202111164753.2有效
发明人：司马华鹏;华冰涛;汤毅平;汪成 -专利权人： 宿迁硅基智能科技有限公司
申请日： 2021-09-30 - 公布日： 2022-08-19 - 主分类号： G06F16/75 文献下载
摘要：本申请提供了一种视频素材的标签生成方法及装置，根据所确定的与待打标的视频素材库对应的目标领域的类别信息，可以获取与该目标领域对应的文本素材中的类别文本，并从这些类别文本中选择与视频内容相匹配的目标类别文本以及对应的目标类别信息作为视频素材的标签。本申请所提供的视频素材的标签生成方法，可以基于目标领域中的文本素材为该目标领域中的视频素材生成标签，避免使用人工基于主观生成的非标准化的标签，从而有效提高标签的准确性。同时，可以通过使用打标模型，有效提高标签的生成效率。
一种视频素材标签生成方法装置

[发明专利]基于fbx文件的面部骨骼绑定自动迁移方法及系统-CN202110125588.3在审
发明人：司马华鹏;廖铮;唐翠翠 -专利权人： 宿迁硅基智能科技有限公司
申请日： 2021-01-29 - 公布日： 2022-07-29 - 主分类号： G06T17/00 文献下载
摘要：本发明公开了基于fbx文件的面部骨骼绑定自动迁移方法及系统，涉及基于人工智能的动画制作技术领域，旨在解决现有技术对于新模型面部骨骼绑定成本高、效率低的问题。其技术方案要点是将已有蒙皮绑定的第一模型拟合至待蒙皮绑定的第二模型，获得第三模型，根据第二模型与第三模型的映射关系、第三模型的骨骼数据和第三模型的蒙皮信息，确定第二模型的骨骼数据和蒙皮信息，最后生成第二模型的fbx文件，完成第二模型的蒙皮绑定。本发明达到了将已有的面部骨骼绑定自动迁移到其他模型上，提高了新模型绑定的效率并降低了人力成本。
基于 fbx 文件面部骨骼绑定自动迁移方法系统

[发明专利]事件检测方法及系统、存储介质及电子装置-CN202110692626.3有效
发明人：司马华鹏;姚奥;汤毅平 -专利权人： 宿迁硅基智能科技有限公司
申请日： 2021-06-22 - 公布日： 2022-07-29 - 主分类号： H04N7/18 文献下载
摘要：本申请实施例提供了一种事件检测方法及系统、存储介质及电子装置，属于音频数据识别技术领域，所述方法包括：获取目标区域的音频数据，其中，目标区域为预设的监控区域；根据音频数据与预设的判定条件确定独立事件，并根据独立事件确定完整事件发生的概率；其中，独立事件与判定条件相对应，完整事件包括一个或多个独立事件，完整事件包括一个或多个独立事件。
事件检测方法系统存储介质电子装置

[发明专利]语音分离方法及装置、存储介质、电子装置-CN202110902416.2有效
发明人：司马华鹏;王满洪;汤毅平 -专利权人： 宿迁硅基智能科技有限公司
申请日： 2021-08-06 - 公布日： 2022-07-29 - 主分类号： G10L19/16 文献下载
摘要：本申请实施例提供了一种语音分离方法及装置、存储介质、电子装置，所述方法包括：获取音频数据和与音频数据同步采集的至少一组视频数据，其中，音频数据中包含至少一个目标角色的混合语音数据；将音频数据按照时域进行切分，同时将视频数据转换为图像序列后提取图像特征向量；将切分后的音频数据和图像特征向量分别进行编码后按照时间信息进行融合，得到混合编码信息；根据混合编码信息输出至少一个目标角色的编码权重；根据至少一个目标角色编码权重和所述频数据输出至少一个目标角色的独立语音数据。
语音分离方法装置存储介质电子

[发明专利]事件发生概率的确定方法、存储介质及电子装置-CN202111205257.7有效
发明人：司马华鹏;汤毅平;姚奥 -专利权人： 宿迁硅基智能科技有限公司
申请日： 2021-10-15 - 公布日： 2022-07-29 - 主分类号： G06V20/52 文献下载
摘要：本申请实施例提供了一种事件发生概率的确定方法、存储介质及电子装置，属于音频数据识别技术领域，所述方法包括：通过拾音设备获取目标区域的音频数据，根据所述音频数据与所述判定条件，确定第一独立事件和/或第二独立事件；在确定发生所述第一独立事件和所述第二独立事件的情况下，通过所述拾音设备分别确定所述第一独立事件的方向信息和所述第二独立事件的方向信息，根据所述第一独立事件确定第一概率值，并根据所述第二独立事件确定第二概率值；根据所述第一独立事件的方向信息和所述第二独立事件的方向信息确定所述第一独立事件和所述第二独立事件的方向偏差；根据第一概率值、第二概率值以及方向偏差确定完整事件发生的概率。
事件发生概率确定方法存储介质电子装置

[发明专利]完整事件确定方法、存储介质及电子装置-CN202111207163.3有效
发明人：司马华鹏;汤毅平;姚奥 -专利权人： 宿迁硅基智能科技有限公司
申请日： 2021-10-15 - 公布日： 2022-07-29 - 主分类号： G06V20/52 文献下载
摘要：本申请实施例提供了一种完整事件确定方法、存储介质及电子装置，所述方法包括：获取目标区域的音频数据；根据音频数据与预设的判定条件，通过第一神经网络模型确定音频数据中包含的独立事件所对应的第一特征向量；第一神经网络模型为使用第一样本数据训练的卷积神经网络模型，第一神经网络模型包括共享网络层和第一分类层，共享网络层包括A层网络结构，A层网络结构之间共享参数，每一层网络结构包括B层卷积层，在每一层网络结构中，位于中间位置的卷积层的卷积通道数量多于位于输入或输出位置的所述卷积层的卷积通道数量；将第一特征向量输入第二神经网络模型，通过第二神经网络模型确定完整事件发生的概率。
完整事件确定方法存储介质电子装置

[发明专利]目标音频的输出方法及装置、系统-CN202111019704.X有效
发明人：司马华鹏;龚雪飞;毛志强 -专利权人： 宿迁硅基智能科技有限公司
申请日： 2021-09-01 - 公布日： 2022-07-29 - 主分类号： G10L19/16 文献下载
摘要：本申请实施例提供了一种目标音频的输出方法及装置、系统，所述方法包括：将源音频输入语音后验图PPG分类网络模型，得到PPG特征向量，其中，PPG特征向量用于指示每一帧源音频对应的音素标签，PPG特征向量包含源音频的文本信息和韵律信息；将PPG特征向量输入声音转换网络模型，根据PPG特征向量对应的音素标签输出目标音频的声学特征向量，其中，目标音频包含多个不同音色的音频；将目标音频的声学特征向量输入声码器，通过声码器输出目标音频。
目标音频输出方法装置系统

[发明专利]人车交互方法及系统-CN201911022090.3有效
发明人：司马华鹏 -专利权人： 宿迁硅基智能科技有限公司
申请日： 2019-10-25 - 公布日： 2022-07-26 - 主分类号： H04L67/141 文献下载
摘要：本发明公开了一种人车交互方法及系统，解决了即时联系车主又不会泄露车主信息的技术问题，其技术方案要点是通过云端服务器建立与第一终端的沟通，然后云端服务器再为第一终端和第二终端建立沟通，既解决了第一终端和第二终端的沟通问题，也很好的保护了第二终端的隐私。
交互方法系统

1
2
下一页»
尾页
共 29 条