“南京硅基智能科技有限公司”申请（专利权）人搜索_中国专利权人_发明人_技术持有人_科研专家_钻瓜专利网

钻瓜专利网为您找到相关结果138个，建议您升级VIP下载更多相关专利

[发明专利]一种数字人的训练方法、系统及驱动系统-CN202311166705.6在审
发明人：司马华鹏;姜皓;范宏伟;屈奇勋;李佳斌;栾锦泰 -专利权人： 南京硅基智能科技有限公司
申请日： 2023-09-12 - 公布日： 2023-10-20 - 主分类号： G06V40/20 文献下载
摘要：本申请提供一种数字人的训练方法、系统及驱动系统。所述方法通过提取训练数据中的人体姿态估计数据，并将人体姿态估计数据输入至优化姿态估计网络以得到人体姿态优化数据。根据优化姿态估计网络的损失函数，计算人体姿态优化数据中的位置优化数据与加速度优化数据的生成损失，以最小化位置估计数据、加速度估计数据与真实值的误差。以驱动优化姿态估计网络更新网络参数，以得到基于优化姿态估计网络的最优驱动模型。通过最小化位置估计数据、加速度估计数据与真实值的误差，降低因训练数据中样本任务身体各部位遮挡引起的抖动，以提高识别人体姿态数据的准确度。
一种数字训练方法系统驱动

[发明专利]合成音频的输出方法及装置、存储介质、电子装置-CN202311160940.2在审
发明人：司马华鹏;吴海娥;姚奥;蒋达;汤毅平 -专利权人： 南京硅基智能科技有限公司
申请日： 2023-09-11 - 公布日： 2023-10-17 - 主分类号： G10L13/10 文献下载
摘要：本申请实施例提供了一种合成音频的输出方法及装置、存储介质、电子装置，所述方法包括：将输入文本和指定的目标身份标识输入音频输出模型，通过所述身份识别模型提取所述目标身份的身份特征序列，通过所述语音合成模型的编码层提取所述输入文本对应的音素特征序列，将所述目标身份的身份特征序列和所述输入文本对应的音素特征序列叠加并输入所述语音合成模型的变量适配器，通过所述变量适配器对所述音素特征序列进行时长预测和对齐、能量预测以及音高预测后，然后经过语音合成模型的解码层并输出与所述输入文本对应的目标梅尔谱特征，将所述目标梅尔谱特征输入声码器，通过所述声码器输出符合所述目标身份说话风格的合成音频。
合成音频输出方法装置存储介质电子

[发明专利]一种动作迁移模型的训练方法及动作迁移方法-CN202111209167.5有效
发明人：司马华鹏;屈奇勋;范宏伟;李佳斌 -专利权人： 南京硅基智能科技有限公司
申请日： 2021-10-18 - 公布日： 2023-09-19 - 主分类号： G06T7/246 文献下载
摘要：本申请提供了一种动作迁移模型的训练方法及动作迁移方法，所述训练方法包括将源图像和驱动图像输入至待训练动作迁移模型，以使该模型根据初始模型参数获取源图像的源关键点坐标组和驱动图像的驱动关键点坐标组，并根据源关键点坐标组和驱动关键点坐标组，获取由源关键点坐标组变换至驱动关键点坐标组的光流图和重绘图，获取源图像的隐层特征图，根据隐层特征图、光流图和重绘图，获取目标图像，目标图像是将驱动图像中与驱动关键点坐标相关联的待迁移动作迁移至源关键点坐标后得到的图像；根据目标图像、源图像以及驱动图像，计算损失函数，并根据损失函数优化初始模型参数，直至达到模型收敛条件，完成训练，得到目标动作迁移模型。
一种动作迁移模型训练方法

[发明专利]端到端提取BNF特征的方法、网络模型、训练方法及系统-CN202111443128.1有效
发明人：司马华鹏;毛志强;孙雨泽 -专利权人： 南京硅基智能科技有限公司
申请日： 2021-11-30 - 公布日： 2023-09-05 - 主分类号： G10L25/24 文献下载
摘要：本申请公开一种端到端提取BNF特征的方法、网络模型、训练方法及系统，其中，网络模型包括循环网络模块和编码模块：所述循环网络模块，用于输入源说话人音频的梅尔频率倒谱系数特征，输出下采样特征；所述编码模块，用于输入所述下采样特征，基于自注意力算法和深度卷积学习，得到第一特征，以及对所述第一特征全连接处理，输出所述源说话人音频的BNF特征，其中，所述第一特征包括所述源说话人音频的帧与帧之间的全局依赖关系和局部依赖关系。本申请的网络模型，可以实现端到端提取BNF特征，时效性更佳，不会叠加中间误差，从而保证提取的BNF特征的准确性。
端到端提取 bnf 特征方法网络模型训练系统

[发明专利]一种动作捕捉和重定向方法-CN202111253389.7有效
发明人：司马华鹏;汪圆;王培雨 -专利权人： 南京硅基智能科技有限公司
申请日： 2021-10-27 - 公布日： 2023-09-05 - 主分类号： G06V40/20 文献下载
摘要：本发明公开了一种动作捕捉和重定向方法，所述方法包括：获取视频数据；基于第一神经网络模型，提取所述每一帧图像中待捕捉人物的边框坐标数据；基于第二神经网络模型，根据所述待捕捉人物的边框坐标数据，获取所述每一帧图像中的待捕捉人物的关键点二维坐标数据；将所述二维坐标数据输入至三维动作方向预测模型，获取所述每一帧图像中的待捕捉人物的三维方向向量预测数据；根据所述关键点二维坐标数据、所述三维方向向量预测数据以及基于动作参数的人物结构模型拟合人体动作参数，获取所述每一帧图像中待捕捉人物的质心位移信息与欧拉角信息；将所述质心位移信息与所述欧拉角信息直接重定向到任意人物结构模型，进行相应动画。
一种动作捕捉定向方法

[发明专利]跟踪显示方法及提词器、电子设备、存储介质-CN202210293071.X有效
发明人：司马华鹏;李慧水;汤毅平;汪成;张亚萍 -专利权人： 南京硅基智能科技有限公司
申请日： 2022-03-23 - 公布日： 2023-08-29 - 主分类号： H04N5/222 文献下载
摘要：本申请提供一种跟踪显示方法及提词器、电子设备、存储介质。解决了相关技术中提词器在工作过程中无法实现理想语音跟踪的技术问题。本申请提出的跟踪显示方法，适用于不同的语言及语境场景。通过判断确定对应的跟踪显示方案以及语言逻辑。具体采用定位与语音跟踪的方式，通过候选位置的筛选与相似度的比较方法实现语音跟踪。一方面令语音跟踪与定位的过程并不严格依赖于语音识别的效果。另一方面，在定位过程中是基于迭代的思路对可能的位置进行筛选并完成定位，其比较的对象不是待跟踪全部文本。进而缩短了处理时间，并可在语音识别错误以及用户口误的情况下，仍可根据用户的实际发言内容实现精准定位。从而实现快速而精准的语音跟踪。
跟踪显示方法提词电子设备存储介质

[发明专利]基于多算法集成的动作迁移模型训练方法及动作迁移方法-CN202111211258.2有效
发明人：司马华鹏;屈奇勋;范宏伟;李佳斌 -专利权人： 南京硅基智能科技有限公司
申请日： 2021-10-18 - 公布日： 2023-08-25 - 主分类号： G06T7/246 文献下载
摘要：本申请提供一种动作迁移模型的训练方法及动作迁移方法，所述训练方法通过将源图像和驱动图像输入至待训练动作迁移模型，获取已知结构关键点坐标、有监督关键点坐标、无监督关键点坐标、有监督关键点坐标和无监督关键点坐标，得到有监督关键点损失函数、无监督关键点损失函数以及无监督局部仿射变换损失函数。并根据前述损失函数，优化初始模型参数，直至达到模型收敛条件，完成训练，得到目标动作迁移模型。本申请提供的动作迁移模型的训练方法及动作迁移方法，只需运用少量的数据，即可完成对动作迁移模型的训练，训练后的模型更稳定，在进行动作迁移时输出的目标视频效果更好。
基于算法集成动作迁移模型训练方法

[发明专利]一种提词器及英文文本跟踪方法、存储介质、电子设备-CN202210291791.2有效
发明人：司马华鹏;李慧水;汤毅平;汪成;张亚萍 -专利权人： 南京硅基智能科技有限公司
申请日： 2022-03-23 - 公布日： 2023-08-25 - 主分类号： G06F16/332 文献下载
摘要：本申请提供了一种提词器及英文文本跟踪方法、存储介质、电子设备。在目标文本为英文文本的场景下，本申请提供的提词器通过识别用户输入的语音数据得到识别文本并基于识别文本确定待匹配文本列表。利用两种相似度匹配处理方式将待匹配文本列表与识别文本进行匹配，进一步实现理想文本位置跟踪。解决了相关技术中用户在基于提词器进行跟读时存在串行等情况，以及无法保证流畅的跟读效果的问题。
一种提词英文文本跟踪方法存储介质电子设备

[发明专利]一种智能人物复刻终端的系统实现方法-CN202210773471.0有效
发明人：司马华鹏;刘杰;周雪兰 -专利权人： 南京硅基智能科技有限公司
申请日： 2022-07-01 - 公布日： 2023-08-22 - 主分类号： G10L13/08 文献下载
摘要：本申请实施例提供了一种智能人物复刻终端的系统实现方法，包括：获取用户所要缅怀的逝者对应的过往图像，并根据所述过往图像生成逝者面部视频；所述过往图像包括所述逝者的面部图像，所述逝者面部视频用于指示所述面部图像按照预设方式进行表情变化；根据所述逝者过往的语言片段训练预设的语言模型以获取目标语言模型；将目标缅怀主题输入至所述目标语言模型中，获取与所述目标缅怀主题对应的目标文本内容；根据所述逝者过往的音频片段训练预设的语音合成模型以获取目标语音合成模型；将所述目标文本内容输入至所述目标语音合成模型中，生成目标音频；根据所述逝者面部视频中所述逝者的面部表情变化同步输出所述目标音频至用户。
一种智能人物终端系统实现方法

[发明专利]基于人脸重演算法的数字名片生成方法及系统-CN202310882404.7在审
发明人：司马华鹏;姜皓;范宏伟;屈奇勋;李佳斌;栾锦泰 -专利权人： 南京硅基智能科技有限公司
申请日： 2023-07-19 - 公布日： 2023-08-18 - 主分类号： G06T11/60 文献下载
摘要：本申请一些实施例提供一种基于人脸重演算法的数字名片生成方法及系统，所述方法通过获取源目标图像与驱动视频，生成源目标图像与驱动视频的目标特征深度图。其中，源目标图像包括目标特征，驱动视频包括适用于目标特征的动作特征。再提取目标特征深度图中的目标特征关键点，并对目标特征关键点执行特征扭曲，以获得扭曲特征。根据目标特征深度图与扭曲特征生成目标图像，以及对目标图像执行超分处理。根据超分处理后的目标图像生成目标视频，以及将目标视频插入数字名片的预设位置，以生成数字名片。所述方法通过驱动源目标图像执行驱动视频的动作，可增加数字名片所承载的信息量，改善数字名片的展示效果。
基于重演算法数字名片生成方法系统

[发明专利]一种基于社交账户的数字人生成方法及系统-CN202310581987.X在审
发明人：司马华鹏;汤毅平 -专利权人： 南京硅基智能科技有限公司
申请日： 2023-05-22 - 公布日： 2023-08-18 - 主分类号： G06T13/40 文献下载
摘要：本申请提供一种基于社交账户的数字人生成方法及系统，所述方法通过获取目标人物的社交账户信息，并基于社交账户信息中的视频平台社交动态以及非视频平台社交动态获取社交动态素材，社交动态素材可以包括图片素材、音频素材以及文本素材。然后从带有目标人物形象的图片素材中提取人像特征，以及从音频素材中音频特征。最后根据所述人像特征、所述音频特征与所述文本素材，以及预设的数字人生成模型，得到目标人物对应的目标数字人。本申请可以通过在目标人物中的社交账户中获取社交账户信息，并通过社交账户信息中的社交动态素材提取各项用于生成数字人的特征，便于获取生成数字人的素材，从而提高数字人的生成效率。
一种基于社交账户数字人生成方系统

[发明专利]一种数字人驱动方法及装置、电子设备和存储介质-CN202310847425.5在审
发明人：司马华鹏;栾锦泰;范宏伟;李佳斌;姜皓;屈奇勋 -专利权人： 南京硅基智能科技有限公司
申请日： 2023-07-12 - 公布日： 2023-08-11 - 主分类号： G06T19/00 文献下载
摘要：本申请实施例公开了一种数字人驱动方法及装置、电子设备和存储介质，涉及计算机与图像处理技术领域，能够解决数字人在驱动过程中的抖动明显、关节旋转错位和易丢失的问题。具体方案包括：通过多个视频采集设备在真实三维空间中采集多个视角的视频数据，确定目标人物的关键点的第一坐标，根据第一坐标确定映射关系，根据映射关系与第一坐标计算第二坐标，基于关键点旋转模型对第二坐标处理，以得到虚拟关键点在虚拟三维空间中的旋转值，基于虚拟关键点在虚拟三维空间中的旋转值驱动数字人运动。
一种数字驱动方法装置电子设备存储介质

[发明专利]一种语音跟踪方法及装置、存储介质、电子设备-CN202111653252.0有效
发明人：司马华鹏;华冰涛;汤毅平;汪成 -专利权人： 南京硅基智能科技有限公司
申请日： 2021-12-30 - 公布日： 2023-08-11 - 主分类号： G06F16/31 文献下载
摘要：本申请提供了一种语音跟踪方法及装置、存储介质、电子设备。本申请具体采用排除无关文本—模糊定位—精确定位的语音跟踪方式，并进一步提出了纠错处理和相似度匹配的相关算法，以在实现准确语音识别的同时，提升了系统的响应速度。实现了实时跟进用户读取待跟踪文本位置的效果。解决了相关技术中在进行语音跟踪数据处理时不能兼顾数据处理速度和语音识别准确率的技术问题。
一种语音跟踪方法装置存储介质电子设备

[发明专利]一种直播互动方法及装置、电子设备和存储介质-CN202310488797.3在审
发明人：司马华鹏;马希望;汤毅平;唐翠翠;范宏伟;刘杰;胡逸 -专利权人： 南京硅基智能科技有限公司
申请日： 2023-04-28 - 公布日： 2023-08-08 - 主分类号： H04N21/2187 文献下载
摘要：本申请提供了一种直播互动方法及装置、电子设备和存储介质，涉及网络直播技术领域，能够自动完成数字人主播与直播间观看者的互动，使得数字人直播间对于直播观看者而言更真实，提高了直播间观看者的观看体验，提高了直播间观看者的留存率。该方法包括：接收用户的互动需求数据；根据互动需求数据，配置至少一项直播互动规则；至少一项直播互动规则包括第一直播互动规则，第一直播互动规则包括第一事件以及第一事件对应的第一互动操作；第一互动操作包括控制数字人主播输出第一预设音频；在直播过程中，响应于第一事件，执行第一互动操作。
一种直播互动方法装置电子设备存储介质

[发明专利]一种网络直播场景下的口型数据处理方法和内容表达设备-CN202310494472.6在审
发明人：司马华鹏;马希望;汤毅平;唐翠翠;范宏伟;刘杰;胡逸 -专利权人： 南京硅基智能科技有限公司
申请日： 2023-04-28 - 公布日： 2023-08-04 - 主分类号： H04N21/43 文献下载
摘要：本公开提供了一种网络直播场景下的口型数据处理方法和内容表达设备，涉及计算机技术领域，用于对齐数字人主播的音频数据和数字人口型图像，使直播效果更加真实自然。该方法应用于直播系统，直播系统包括内容表达设备以及与内容表达设备连接的直播视频生成设备，该方法包括：内容表达设备获取用户音频数据；内容表达设备将用户音频数据输入转化模型，转化模型输出用户音频数据对应的多帧数字人口型数据；内容表达设备基于多帧数字人口型数据，生成多帧直播图像；向直播视频生成设备发送用户音频数据和多帧直播图像，以使直播视频生成设备基于用户音频数据和多帧直播图像，生成直播视频。
一种网络直播场景口型数据处理方法内容表达设备

1
2
3
4
5
6
7
8
9
10
下一页»
尾页
共 138 条