专利名称
主分类
A 农业
B 作业;运输
C 化学;冶金
D 纺织;造纸
E 固定建筑物
F 机械工程、照明、加热
G 物理
H 电学
专利下载VIP
公布日期
2023-10-24 公布专利
2023-10-20 公布专利
2023-10-17 公布专利
2023-10-13 公布专利
2023-10-10 公布专利
2023-10-03 公布专利
2023-09-29 公布专利
2023-09-26 公布专利
2023-09-22 公布专利
2023-09-19 公布专利
更多 »
专利权人
国家电网公司
华为技术有限公司
浙江大学
中兴通讯股份有限公司
三星电子株式会社
中国石油化工股份有限公司
清华大学
鸿海精密工业股份有限公司
松下电器产业株式会社
上海交通大学
更多 »
钻瓜专利网为您找到相关结果131个,建议您升级VIP下载更多相关专利
  • [发明专利]一种基于多尺度字典的唇形同步方法-CN202311021061.1有效
  • 刘学亮;步超飞;赵烨;汪萌;洪日昌 - 合肥工业大学
  • 2023-08-15 - 2023-10-20 - G10L21/10
  • 本发明涉及计算机视觉技术领域,公开了一种基于多尺度字典的唇形同步方法,包括:音频图像对的数据集建立;多尺度唇形字典的构建:利用预训练的VggFace模型提取FFHQ人脸图像数据集中人脸图像的多个尺度的人脸特征图,使用dlib人脸关键点检测器检测出每张人脸特征图上嘴唇的位置,得到嘴唇特征图;使用RoIAlign双线性插值方法将不同人脸图像相同尺度的嘴唇特征图,重新采样为相同尺寸;唇形同步模型的构建;唇形同步视频的生成。本发明中的唇形同步方法增加了多尺度唇形字典的引用,为嘴唇的生成提供完整的先验字典信息,能够实现更加真实的唇形驱动效果。
  • 一种基于尺度字典形同方法
  • [发明专利]用户音高条的显示方法及计算机可读存储介质-CN202310833132.1在审
  • 陈勇;蔡智力;苏财德;王艺伟 - 福建星网视易信息系统有限公司
  • 2023-07-07 - 2023-10-03 - G10L21/10
  • 本发明公开了一种用户音高条的显示方法及计算机可读存储介质,方法包括:根据预设的时长实时获取当前输入音频片段,并获取其音高值作为当前用户音高值;在各标准音高条中确定当前用户音高值对应的目标音高条,并获取目标音高条的音高值、时长和绘制宽高;根据歌曲曲谱对应的音域范围,修正当前用户音高值;根据修正后的当前用户音高值、当前输入音频片段对应的偏移时间和时长以及目标音高条的起止时间、横向起止位置、时长和绘制宽高,确定当前用户音高条在预设的音高条区域内的绘制位置和绘制宽高;根据当前用户音高条的绘制位置和绘制宽高,在音高条区域内绘制当前用户音高条。本发明能够更精准硬度地显示用户音高条。
  • 用户音高显示方法计算机可读存储介质
  • [发明专利]基于神经场的语音驱动数字人生成方法-CN202311017166.X在审
  • 张凯;周翔;张炜晨;陈文硕 - 清华大学深圳国际研究生院
  • 2023-08-14 - 2023-09-29 - G10L21/10
  • 一种基于神经场的语音驱动数字人生成方法,包括如下步骤:S1、使用人脸模型构建可变形的数字人脸;S2、对给定语音的音频特征进行编码,进行音频特征到所述数字人脸的表情空间的映射;S3、基于神经场表达,根据音频特征驱动所述标准空间的数字人;其中,基于神经占据场与神经纹理场得到在标准空间的数字人,对于所述标准空间里的空间坐标,由神经位移场根据音频特征输出对应的位移。进一步地,步骤S3还使用人脸语义作为显式控制信号,进行基于人脸语义的眼睛控制。对比传统方法,本发明可获得更同步的人脸躯干驱动以及眼睛睁闭控制,在图像质量以及语音同步指标上都超过了传统方法。
  • 基于神经语音驱动数字人生成方
  • [发明专利]语音动画生成方法、装置、电子设备和介质-CN202310847814.8有效
  • 廖家聪;丘国辰;付星辉;孙钟前 - 腾讯科技(深圳)有限公司
  • 2023-07-12 - 2023-09-08 - G10L21/10
  • 本申请实施例公开了一种语音动画生成方法、装置、电子设备和介质,可以应用于语音技术等人工智能领域;本申请实施例获取特征提取网络和视素生成网络;通过第一音频数据、以及第一音频数据对应的口型标签,训练特征提取网络,得到训练后的特征提取网络;由训练后的特征提取网络,从第二音频数据中提取音素特征;由视素生成网络,生成音素特征对应的视素特征;通过视素特征、以及第二音频数据对应的音素标签,训练视素生成网络,得到训练后的视素生成网络,以便将训练后的特征提取网络以及训练后的视素生成网络用于生成语音动画。本申请中采用两种不同的音频数据和标签,进行有监督的两阶段训练过程,可以提高生成语音动画的准确性。
  • 语音动画生成方法装置电子设备介质
  • [发明专利]钢琴弹奏视频生成方法、装置、计算机设备及存储介质-CN202310638047.X在审
  • 亢祖衡;彭俊清;王健宗;肖京 - 平安科技(深圳)有限公司
  • 2023-05-31 - 2023-08-29 - G10L21/10
  • 本发明涉及语音分析领域,尤其涉及一种钢琴弹奏视频生成方法、装置、计算机设备及存储介质。其方法包括:获取音频流数据;将音频流数据输入音频编码器进行编码处理,得到音频编码;通过钢琴视频代码转换模型对音频编码进行代码转换,得到钢琴视频代码薄序列;通过钢琴视频代码薄解码器对钢琴视频代码薄序列进行解码处理,得到钢琴视频流数据;钢琴视频流数据是指人手在钢琴上弹奏与音频编码对应的音乐的视频流;将钢琴视频流数据和音频流数据进行合并,得到钢琴弹奏视频。本发明将音频流数据转换为具有人手弹奏钢琴的画面的视频流数据,并最终生成既包含音频又包含人手在钢琴上弹奏该音频的视频,使视频效果和质量更好,提高用户体验感。
  • 钢琴弹奏视频生成方法装置计算机设备存储介质
  • [发明专利]基于转换系统的视频语音同步方法、装置、电子设备-CN202310633229.8在审
  • 张旭龙;王健宗;程宁 - 平安科技(深圳)有限公司
  • 2023-05-31 - 2023-08-22 - G10L21/10
  • 本申请实施例提供了一种基于转换系统的视频语音同步方法、装置、电子设备及存储介质,属于金融科技技术领域。该方法包括:基于转换系统对视频中的音频进行提取,得到原始语音文本以及语音特征信息;将原始语音文本输入预设翻译模型进行翻译,得到与原始语音文本对应的目标语音信息;根据语音特征信息对目标语音信息进行调整,得到目标合成语音;基于转换系统对视频进行检测,得到说话人的面部特征;将面部特征和目标合成语音输入训练好的对抗网络模型进行语音同步,得到说话人的嘴唇运动帧;根据嘴唇运动帧更新视频,得到目标视频。本申请实施例能够生成包含翻译的音频和经过调整的嘴唇动作的视频,实现视频中说话人的嘴唇和声音相匹配。
  • 基于转换系统视频语音同步方法装置电子设备
  • [发明专利]模型训练、嘴部动作参数获取方法、装置、设备及介质-CN202110452759.3有效
  • 陈泷翔;刘炫鹏;王鑫宇 - 深圳追一科技有限公司
  • 2021-04-26 - 2023-08-22 - G10L21/10
  • 本申请公开了一种嘴部动作驱动模型训练方法、装置、嘴部动作参数获取方法、装置、电子设备及计算机可读存储介质,该训练方法包括:获取多种第一训练数据;将各个类别的第一训练数据分别输入初始模型中对应的输入网络,得到对应的输出值;初始模型包括一个主干网络;基于梯度下降原则,利用输出值调节主干网络,得到目标网络;获取第二训练数据,并基于梯度下降原则,利用第二训练数据训练初始驱动模型,得到嘴部动作驱动模型;综合多个任务,可以使得主干网络在训练过程中学会如何学习,学习各个任务之间的联系,适应各个任务对应的第一训练数据的情况,避免主干网络出现系统性错误,进而避免基于主干网络得到的嘴部动作驱动模型出现系统性错误。
  • 模型训练动作参数获取方法装置设备介质

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top