“小哆智能科技（北京）有限公司”申请（专利权）人搜索_中国专利权人_发明人_技术持有人_科研专家_钻瓜专利网

钻瓜专利网为您找到相关结果9个，建议您升级VIP下载更多相关专利

[发明专利]一种超清2D数字人生成方法及系统-CN202311075837.8在审
发明人：袁海杰 -专利权人： 小哆智能科技（北京）有限公司
申请日： 2023-08-25 - 公布日： 2023-09-29 - 主分类号： H04N5/04 文献下载
摘要：本申请公开了一种超清2D数字人生成方法及系统。本方法首先拍摄并获取真人播报的面部动作视频数据集；然后通过面部动作视频数据集确定音频到图像像素的映射关系，并通过原始人脸图像和原始音频基于映射关系生成第一数字人视频；最后将第一数字人视频输入到训练完成的唇音同步模型中生成高精度数字人视频，并缩短高精度数字人视频中的不同步片段时长，得到目标数字人视频。本申请通过音频信号来对遮蔽嘴部的人脸按语音内容进行修复，并通过超分算法对低清的人脸进行分辨率和保真度的增强。
一种数字人生成方系统

[发明专利]一种虚拟数字人唇形同步方法及系统-CN202310928303.9在审
发明人：袁海杰;王鑫恒;解仑 -专利权人： 小哆智能科技（北京）有限公司
申请日： 2023-07-27 - 公布日： 2023-08-29 - 主分类号： H04N5/265 文献下载
摘要：本申请公开了一种虚拟数字人唇形同步方法及系统。本方法首先根据预先获取的目标语料进行视频拍摄得到样本视频，并从样本视频中提取出人脸图像和音频信息，然后将人脸图像通过OpenFace工具进行处理得到面部关键点图像，并将音频信息进行预处理转换为Mel频谱图；最后基于面部关键点图像和Mel频谱图对Wav2Lip模型进行训练，并训练完成的Wav2Lip模型对目标视频进行处理得到对应的唇形视频。本方法能够有效提高唇形同步的准确率，同时，减少了计算复杂度，解决了信息冗余问题。
一种虚拟数字形同方法系统

[发明专利]一种人物照视图方位校正角度计算的方法-CN201911290547.9有效
发明人：华绘 -专利权人： 小哆智能科技（北京）有限公司
申请日： 2019-12-16 - 公布日： 2023-07-14 - 主分类号： G06V40/16 文献下载
摘要：本发明提供了一种人物照视图方位校正角度计算的方法，本发明结合人物照视图方位为非正视图，导致算法模型准确率低、客户体验感下降的问题，提出采用人体关键点检测的方法得到图片中人体关键点的坐标值信息，通过坐标值转换和计算得到x,y,θ1,θ2共四个值，通过x,y,θ1,θ2的关系，判断并计算需要顺时针旋转的角度。本发明提供了一种人物照视图方位校正角度计算的方法可以提高对人物图片识别的深度学习模型泛化能力，也可以提高客户对公司服务人员形象的满意度，增加公司的公信力。
一种人物视图方位校正角度计算方法

[发明专利]语音口型同步生成方法、装置、电子设备及存储介质-CN202211296169.7在审
发明人：余国军 -专利权人： 小哆智能科技（北京）有限公司
申请日： 2022-10-21 - 公布日： 2023-04-14 - 主分类号： G10L13/02 文献下载
摘要：本申请公开了一种语音口型同步生成方法、装置、电子设备及存储介质。该方法获取虚拟人的音素文本，并对虚拟人做人脸跟踪和配准，提取人脸表情系数；基于人脸表情系数和音素文本分别提取得到人脸表情系数的口型特征点序列和音素文本的口型特征点序列；根据提取得到的两组口型特征点序列，获得音素文本的口型特征点序列迁移到与表情系数的口型特征点序列中口型集合空间一致的迁移函数；根据迁移函数以及任意音频，获得任意音频迁移后的口型特征点序列；根据迁移后的口型特征点序列从虚拟人中挑选出与之口型集合空间一致的人脸图像，并生成真人语音口型动画序列。本申请可以解决现有技术中需要重新采集大量口型，其扩展性较差的问题。
语音口型同步生成方法装置电子设备存储介质

[发明专利]虚拟主播视频生成方法、装置、电子设备及存储介质-CN202211296864.3在审
发明人：余国军 -专利权人： 小哆智能科技（北京）有限公司
申请日： 2022-10-21 - 公布日： 2022-12-20 - 主分类号： G06V40/16 文献下载
摘要：本申请公开了一种虚拟主播视频生成方法、装置、电子设备及存储介质。该方法包括首先获取待合成的目标图像视频；采集2D真人照片，并获取2D真人照片相关信息，并根据2D真人照片相关信息整理出人脸图像数据和唇音特征数据；将人脸图像数据和唇音特征数据以及目标图像视频输入到预先训练完成的生成对抗网络进行合成处理，得到合成图像视频。本方法通过提取音频的语言学特征以及韵律特性，从而增强唇音同步性，并通过生成对抗网络进行合成，从而生成趋于真实的虚拟主播人脸，对产品图像视频再进行合成处理，让用户达到在观看图像视频时，具有相对真实的虚拟主播体验效果。
虚拟视频生成方法装置电子设备存储介质

[发明专利]一种智能语音质检决策方法及系统-CN202210892023.2在审
发明人：余国军 -专利权人： 小哆智能科技（北京）有限公司
申请日： 2022-07-27 - 公布日： 2022-10-21 - 主分类号： G10L25/60 文献下载
摘要：本发明公开了一种智能语音质检决策方法及系统，通过该方法使语音质检工作由传统的人工向自动化转变，极大地提高了工作效率，节约了人力资源，基于多路并发式NLP分析模块实现多路实时语音、多路录音文件同时分析，充分利用计算机计算资源，依托专业知识库使NLP分析更加精准高效。形成的质检报告结合大数据分析直接形成决策指引，而不必再人工进行海量数据信息挖掘、分析、总结、判断。最后的人工审核使系统更加稳健，数据库更新更加精准，形成良性循环。
一种智能语音质检决策方法系统

[发明专利]针对虚拟人在多种场景下的无缝衔接方法及系统-CN202210207102.5在审
发明人：余国军 -专利权人： 小哆智能科技（北京）有限公司
申请日： 2022-03-03 - 公布日： 2022-06-03 - 主分类号： G06F16/332 文献下载
摘要：本发明公开了一种针对虚拟人在多种场景下的无缝衔接方法及系统，方法包括获取声音信息并进行断句、排列组合和重组分析处理；将经过处理的声音信息生成文字，并打上不同类型的标签添加到话术分拣模块；对添加的标签，进行精准定位，并进行分支操作；判断当前使用场景是否发生变化；若当前使用场景发生变化，则根据分析结果，向底层人物模型驱动发送更换模型通知；人物模型驱动接收到更换模型通知后，自动更换形象，并对当前骨骼进行预制绑定，自动更换话术库；本发明能够在不同场景下，不需要专业人员进行再次调整，就可以根据人们的日常交流，询问信息等从一个场景无缝衔接到另一个场景中进行动作和语音话术的匹配。
针对虚拟多种场景无缝衔接方法系统

[发明专利]一种用于模拟虚拟人物说话的方法及装置-CN202210048714.4在审
发明人：余国军 -专利权人： 小哆智能科技（北京）有限公司
申请日： 2022-01-17 - 公布日： 2022-04-15 - 主分类号： G06T13/20 文献下载
摘要：本发明公开了一种用于模拟虚拟人物说话的方法及装置，方法包括：步骤1：根据多个音素分类，制作与每个音素分类对应的口型，得到多个基础口型；其中，多个音素分类包括：(AA)、(OH)、(OU)、第一通用分类、第二通用分类；第一通用分类和第二通用分类内包括多个音素；步骤2：输入音频流，提取音频流的音频帧，识别音频帧的音素；步骤3：从多个音素分类中，确定与音频帧的音素对应的音素分类，选择与之对应的基础口型；步骤4：将选择的基础口型合成音频帧的对应口型。将真人口型通过音素分类，整理为5个基本口型，可以通过音素识别，驱动虚拟数字人口型同步。
一种用于模拟虚拟人物说话方法装置

[发明专利]一种模拟虚拟人物说话的方法及装置-CN202210050718.6在审
发明人：余国军;耿俊怀 -专利权人： 小哆智能科技（北京）有限公司
申请日： 2022-01-17 - 公布日： 2022-04-15 - 主分类号： G06T13/40 文献下载
摘要：本发明实施例公开了一种模拟虚拟人物说话的方法及装置，方法包括以下步骤：根据多个音素分类，制作与每个音素分类对应的口型，得到多个基础口型；输入音频流，提取音频流的音频帧，识别音频帧的音素；从多个音素分类中，确定与音频帧的音素对应的音素分类，选择与之对应的基础口型；将选择的基础口型合成音频帧的对应口型。将真人口型通过音素分类，整理为14个基本口型，可以让计算机通过音素识别，驱动虚拟数字人口型同步。通过虚拟数字人口型专利，可以快速准确的实现虚拟数字人的语音口型同步。制定了口型标准化口型制作方案，极大的提高了虚拟数字人口型制作效率和口型的质量。让虚拟数字人更加接近于真人，极大的提升了用户的体验。
一种模拟虚拟人物说话方法装置

1
共 9 条