专利名称
主分类
A 农业
B 作业;运输
C 化学;冶金
D 纺织;造纸
E 固定建筑物
F 机械工程、照明、加热
G 物理
H 电学
专利下载VIP
公布日期
2023-10-24 公布专利
2023-10-20 公布专利
2023-10-17 公布专利
2023-10-13 公布专利
2023-10-10 公布专利
2023-10-03 公布专利
2023-09-29 公布专利
2023-09-26 公布专利
2023-09-22 公布专利
2023-09-19 公布专利
更多 »
专利权人
国家电网公司
华为技术有限公司
浙江大学
中兴通讯股份有限公司
三星电子株式会社
中国石油化工股份有限公司
清华大学
鸿海精密工业股份有限公司
松下电器产业株式会社
上海交通大学
更多 »
钻瓜专利网为您找到相关结果9个,建议您升级VIP下载更多相关专利
  • [发明专利]一种超清2D数字人生成方法及系统-CN202311075837.8在审
  • 袁海杰 - 小哆智能科技(北京)有限公司
  • 2023-08-25 - 2023-09-29 - H04N5/04
  • 本申请公开了一种超清2D数字人生成方法及系统。本方法首先拍摄并获取真人播报的面部动作视频数据集;然后通过面部动作视频数据集确定音频到图像像素的映射关系,并通过原始人脸图像和原始音频基于映射关系生成第一数字人视频;最后将第一数字人视频输入到训练完成的唇音同步模型中生成高精度数字人视频,并缩短高精度数字人视频中的不同步片段时长,得到目标数字人视频。本申请通过音频信号来对遮蔽嘴部的人脸按语音内容进行修复,并通过超分算法对低清的人脸进行分辨率和保真度的增强。
  • 一种数字人生成方系统
  • [发明专利]语音口型同步生成方法、装置、电子设备及存储介质-CN202211296169.7在审
  • 余国军 - 小哆智能科技(北京)有限公司
  • 2022-10-21 - 2023-04-14 - G10L13/02
  • 本申请公开了一种语音口型同步生成方法、装置、电子设备及存储介质。该方法获取虚拟人的音素文本,并对虚拟人做人脸跟踪和配准,提取人脸表情系数;基于人脸表情系数和音素文本分别提取得到人脸表情系数的口型特征点序列和音素文本的口型特征点序列;根据提取得到的两组口型特征点序列,获得音素文本的口型特征点序列迁移到与表情系数的口型特征点序列中口型集合空间一致的迁移函数;根据迁移函数以及任意音频,获得任意音频迁移后的口型特征点序列;根据迁移后的口型特征点序列从虚拟人中挑选出与之口型集合空间一致的人脸图像,并生成真人语音口型动画序列。本申请可以解决现有技术中需要重新采集大量口型,其扩展性较差的问题。
  • 语音口型同步生成方法装置电子设备存储介质
  • [发明专利]虚拟主播视频生成方法、装置、电子设备及存储介质-CN202211296864.3在审
  • 余国军 - 小哆智能科技(北京)有限公司
  • 2022-10-21 - 2022-12-20 - G06V40/16
  • 本申请公开了一种虚拟主播视频生成方法、装置、电子设备及存储介质。该方法包括首先获取待合成的目标图像视频;采集2D真人照片,并获取2D真人照片相关信息,并根据2D真人照片相关信息整理出人脸图像数据和唇音特征数据;将人脸图像数据和唇音特征数据以及目标图像视频输入到预先训练完成的生成对抗网络进行合成处理,得到合成图像视频。本方法通过提取音频的语言学特征以及韵律特性,从而增强唇音同步性,并通过生成对抗网络进行合成,从而生成趋于真实的虚拟主播人脸,对产品图像视频再进行合成处理,让用户达到在观看图像视频时,具有相对真实的虚拟主播体验效果。
  • 虚拟视频生成方法装置电子设备存储介质
  • [发明专利]一种智能语音质检决策方法及系统-CN202210892023.2在审
  • 余国军 - 小哆智能科技(北京)有限公司
  • 2022-07-27 - 2022-10-21 - G10L25/60
  • 本发明公开了一种智能语音质检决策方法及系统,通过该方法使语音质检工作由传统的人工向自动化转变,极大地提高了工作效率,节约了人力资源,基于多路并发式NLP分析模块实现多路实时语音、多路录音文件同时分析,充分利用计算机计算资源,依托专业知识库使NLP分析更加精准高效。形成的质检报告结合大数据分析直接形成决策指引,而不必再人工进行海量数据信息挖掘、分析、总结、判断。最后的人工审核使系统更加稳健,数据库更新更加精准,形成良性循环。
  • 一种智能语音质检决策方法系统
  • [发明专利]针对虚拟人在多种场景下的无缝衔接方法及系统-CN202210207102.5在审
  • 余国军 - 小哆智能科技(北京)有限公司
  • 2022-03-03 - 2022-06-03 - G06F16/332
  • 本发明公开了一种针对虚拟人在多种场景下的无缝衔接方法及系统,方法包括获取声音信息并进行断句、排列组合和重组分析处理;将经过处理的声音信息生成文字,并打上不同类型的标签添加到话术分拣模块;对添加的标签,进行精准定位,并进行分支操作;判断当前使用场景是否发生变化;若当前使用场景发生变化,则根据分析结果,向底层人物模型驱动发送更换模型通知;人物模型驱动接收到更换模型通知后,自动更换形象,并对当前骨骼进行预制绑定,自动更换话术库;本发明能够在不同场景下,不需要专业人员进行再次调整,就可以根据人们的日常交流,询问信息等从一个场景无缝衔接到另一个场景中进行动作和语音话术的匹配。
  • 针对虚拟多种场景无缝衔接方法系统
  • [发明专利]一种用于模拟虚拟人物说话的方法及装置-CN202210048714.4在审
  • 余国军 - 小哆智能科技(北京)有限公司
  • 2022-01-17 - 2022-04-15 - G06T13/20
  • 本发明公开了一种用于模拟虚拟人物说话的方法及装置,方法包括:步骤1:根据多个音素分类,制作与每个音素分类对应的口型,得到多个基础口型;其中,多个音素分类包括:(AA)、(OH)、(OU)、第一通用分类、第二通用分类;第一通用分类和第二通用分类内包括多个音素;步骤2:输入音频流,提取音频流的音频帧,识别音频帧的音素;步骤3:从多个音素分类中,确定与音频帧的音素对应的音素分类,选择与之对应的基础口型;步骤4:将选择的基础口型合成音频帧的对应口型。将真人口型通过音素分类,整理为5个基本口型,可以通过音素识别,驱动虚拟数字人口型同步。
  • 一种用于模拟虚拟人物说话方法装置
  • [发明专利]一种模拟虚拟人物说话的方法及装置-CN202210050718.6在审
  • 余国军;耿俊怀 - 小哆智能科技(北京)有限公司
  • 2022-01-17 - 2022-04-15 - G06T13/40
  • 本发明实施例公开了一种模拟虚拟人物说话的方法及装置,方法包括以下步骤:根据多个音素分类,制作与每个音素分类对应的口型,得到多个基础口型;输入音频流,提取音频流的音频帧,识别音频帧的音素;从多个音素分类中,确定与音频帧的音素对应的音素分类,选择与之对应的基础口型;将选择的基础口型合成音频帧的对应口型。将真人口型通过音素分类,整理为14个基本口型,可以让计算机通过音素识别,驱动虚拟数字人口型同步。通过虚拟数字人口型专利,可以快速准确的实现虚拟数字人的语音口型同步。制定了口型标准化口型制作方案,极大的提高了虚拟数字人口型制作效率和口型的质量。让虚拟数字人更加接近于真人,极大的提升了用户的体验。
  • 一种模拟虚拟人物说话方法装置

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top