“G10L21/10”专利分类搜索_专利查询_文献下载_出售_求购_买卖_交易

钻瓜专利网为您找到相关结果131个，建议您升级VIP下载更多相关专利

[发明专利]听障人士与周围环境的信息互动方法及装置-CN202310830948.9在审
发明人：孟轲;徐洪赞;程雪松;张高然 -专利权人：浙江极氪智能科技有限公司;浙江吉利控股集团有限公司
申请日： 2023-07-06 - 公布日： 2023-10-27 - 主分类号： G10L21/10 文献下载
摘要：本申请提供一种听障人士与周围环境的信息互动方法及装置。其中，听障人士与周围环境的信息互动方法包括获取声音接收器输入的车辆内部听障人士周围环境的声音；依据声音与可视信息的关联关系，转换所述声音为用于供听障人士识别的可视信息；及展示所述可视信息；所述可视信息用于供所述听障人士周围环境与所述听障人士进行信息互动。
人士周围环境信息互动方法装置

[发明专利]图像的生成、模型训练方法、装置、电子设备及存储介质-CN202310417012.3在审
发明人：林楚铭;曹赟;罗栋豪;邰颖;汪铖杰 -专利权人：腾讯科技（深圳）有限公司
申请日： 2023-04-11 - 公布日： 2023-10-27 - 主分类号： G10L21/10 文献下载
摘要：本申请公开了一种图像的生成、模型训练方法、装置、电子设备及存储介质。获取目标对象的第一原始图像和用于驱动目标对象动作的目标音频数据，基于目标音频数据，得到目标对象对应的第一渲染图像。从第一渲染图像中裁剪出包括嘴部区域的图像内容的第一子图，将第一子图覆盖拼接到第一原始图像中，得到第一合成图像，通过图像生成模型对第一合成图像进行优化，得到目标图像。在第一合成图像中，第一原始图像的部分能够提供真实且丰富的图像细节，图像生成模型可以基于这些细节信息，优化第一子图中的口腔和皮肤纹理，从而使得目标图像中嘴部区域的图像内容更为准确，可有效提高生成图像的质量。本申请的技术方案可广泛应用于图像处理技术领域。
图像生成模型训练方法装置电子设备存储介质

[发明专利]一种基于多尺度字典的唇形同步方法-CN202311021061.1有效
发明人：刘学亮;步超飞;赵烨;汪萌;洪日昌 -专利权人：合肥工业大学
申请日： 2023-08-15 - 公布日： 2023-10-20 - 主分类号： G10L21/10 文献下载
摘要：本发明涉及计算机视觉技术领域，公开了一种基于多尺度字典的唇形同步方法，包括：音频图像对的数据集建立；多尺度唇形字典的构建：利用预训练的VggFace模型提取FFHQ人脸图像数据集中人脸图像的多个尺度的人脸特征图，使用dlib人脸关键点检测器检测出每张人脸特征图上嘴唇的位置，得到嘴唇特征图；使用RoIAlign双线性插值方法将不同人脸图像相同尺度的嘴唇特征图，重新采样为相同尺寸；唇形同步模型的构建；唇形同步视频的生成。本发明中的唇形同步方法增加了多尺度唇形字典的引用，为嘴唇的生成提供完整的先验字典信息，能够实现更加真实的唇形驱动效果。
一种基于尺度字典形同方法

[发明专利]用户音高条的显示方法及计算机可读存储介质-CN202310833132.1在审
发明人：陈勇;蔡智力;苏财德;王艺伟 -专利权人：福建星网视易信息系统有限公司
申请日： 2023-07-07 - 公布日： 2023-10-03 - 主分类号： G10L21/10 文献下载
摘要：本发明公开了一种用户音高条的显示方法及计算机可读存储介质，方法包括：根据预设的时长实时获取当前输入音频片段，并获取其音高值作为当前用户音高值；在各标准音高条中确定当前用户音高值对应的目标音高条，并获取目标音高条的音高值、时长和绘制宽高；根据歌曲曲谱对应的音域范围，修正当前用户音高值；根据修正后的当前用户音高值、当前输入音频片段对应的偏移时间和时长以及目标音高条的起止时间、横向起止位置、时长和绘制宽高，确定当前用户音高条在预设的音高条区域内的绘制位置和绘制宽高；根据当前用户音高条的绘制位置和绘制宽高，在音高条区域内绘制当前用户音高条。本发明能够更精准硬度地显示用户音高条。
用户音高显示方法计算机可读存储介质

[发明专利]基于神经场的语音驱动数字人生成方法-CN202311017166.X在审
发明人：张凯;周翔;张炜晨;陈文硕 -专利权人：清华大学深圳国际研究生院
申请日： 2023-08-14 - 公布日： 2023-09-29 - 主分类号： G10L21/10 文献下载
摘要：一种基于神经场的语音驱动数字人生成方法，包括如下步骤：S1、使用人脸模型构建可变形的数字人脸；S2、对给定语音的音频特征进行编码，进行音频特征到所述数字人脸的表情空间的映射；S3、基于神经场表达，根据音频特征驱动所述标准空间的数字人；其中，基于神经占据场与神经纹理场得到在标准空间的数字人，对于所述标准空间里的空间坐标，由神经位移场根据音频特征输出对应的位移。进一步地，步骤S3还使用人脸语义作为显式控制信号，进行基于人脸语义的眼睛控制。对比传统方法，本发明可获得更同步的人脸躯干驱动以及眼睛睁闭控制，在图像质量以及语音同步指标上都超过了传统方法。
基于神经语音驱动数字人生成方

[发明专利]一种音频数据可视化处理方法、装置、设备及存储介质-CN202310891371.2有效
发明人：李泉 -专利权人：深圳市亿晟科技有限公司
申请日： 2023-07-20 - 公布日： 2023-09-29 - 主分类号： G10L21/10 文献下载
摘要：本发明提供了一种音频数据可视化处理方法、装置、设备及存储介质，涉及信号处理技术领域。所述音频数据可视化处理方法，包括：获取原始音频数据，对原始音频数据进行特征分类，得到至少一个音频类别；对音频类别进行特征提取，得到特征信息；将特征信息转换为对应的用户界面元素；在获取针对用户界面元素的修改指令时，调整原始音频数据，得到修正音频数据。本发明能够将原始音频数据通过用户界面元素为用户提供音频视觉化的体验，以使得广大用户能够更加直观地感受和理解音频数据的内容，并通过对用户界面元素的修改，对音频数据进行调整。
一种音频数据可视化处理方法装置设备存储介质

[发明专利]表情动画的生成方法、装置和数字人平台-CN202310861185.4有效
发明人：林悦;曾然然;王磊;赵德欣 -专利权人：中国电信股份有限公司
申请日： 2023-07-13 - 公布日： 2023-09-22 - 主分类号： G10L21/10 文献下载
摘要：本公开提供了一种表情动画的生成方法、装置和数字人平台，涉及人工智能领域，所述方法包括：获取语音中每个文字的信息，其中，所述信息包括第一信息和第二信息，所述第一信息包括每个文字对应的发音类型，所述第二信息包括所述语音中每个文字的音量的振幅；根据所述第一信息和所述第二信息，确定所述语音中每个文字的口型特征；根据所述口型特征生成所述语音中每个文字对应的表情动画。本公开能够提高表情动画与真人表情的相似度。
表情动画生成方法装置数字平台

[发明专利]一种基于教师学生网络的语音驱动说话人脸视频生成方法-CN202110811278.7有效
发明人：熊盛武;陈燚雷;曾瑞;林承德;马宜祯 -专利权人：武汉理工大学
申请日： 2021-07-19 - 公布日： 2023-09-15 - 主分类号： G10L21/10 文献下载
摘要：本发明涉及一种基于教师学生网络的语音驱动说话人脸视频生成方法。首先利用教师网络压缩出视频数据中的动态信息，接着利用学生网络学习语音到动态信息的预测，然后使用预训练好的教师网络提取的人脸动态信息作为监督，结合人脸身份信息实现语音驱动人脸的说话任务。相比于传统的任意说话人脸视频生成技术，本发明首次挖掘视频信号中的动态信息，在人脸生成、图片清晰度和生成说话人脸的视频唇形的准确度上有较大的提升。
一种基于教师学生网络语音驱动说话视频生成方法

[发明专利]多模态图像生成方法、装置、存储介质及电子设备-CN202311006934.1在审
发明人：孔欧 -专利权人：上海蜜度信息技术有限公司
申请日： 2023-08-11 - 公布日： 2023-09-12 - 主分类号： G10L21/10 文献下载
摘要：本申请提供一种多模态图像生成方法、装置、存储介质及电子设备。所述多模态图像生成方法包括：对语音描述进行音频编码以获取语音嵌入；对所述语音描述进行语音识别以获取转写文本；对所述转写文本进行文本编码以获取第一文本嵌入；对文字描述进行文本编码以获取第二文本嵌入；根据所述语音嵌入、所述第一文本嵌入、所述第二文本嵌入和高斯采样嵌入获取隐层嵌入；根据所述隐层嵌入生成图像。所述多模态图像生成方法利用两种模态生成图像，由此生成的图像更能满足用户的需求。
多模态图像生成方法装置存储介质电子设备

[发明专利]语音动画生成方法、装置、电子设备和介质-CN202310847814.8有效
发明人：廖家聪;丘国辰;付星辉;孙钟前 -专利权人：腾讯科技（深圳）有限公司
申请日： 2023-07-12 - 公布日： 2023-09-08 - 主分类号： G10L21/10 文献下载
摘要：本申请实施例公开了一种语音动画生成方法、装置、电子设备和介质，可以应用于语音技术等人工智能领域；本申请实施例获取特征提取网络和视素生成网络；通过第一音频数据、以及第一音频数据对应的口型标签，训练特征提取网络，得到训练后的特征提取网络；由训练后的特征提取网络，从第二音频数据中提取音素特征；由视素生成网络，生成音素特征对应的视素特征；通过视素特征、以及第二音频数据对应的音素标签，训练视素生成网络，得到训练后的视素生成网络，以便将训练后的特征提取网络以及训练后的视素生成网络用于生成语音动画。本申请中采用两种不同的音频数据和标签，进行有监督的两阶段训练过程，可以提高生成语音动画的准确性。
语音动画生成方法装置电子设备介质

[发明专利]钢琴弹奏视频生成方法、装置、计算机设备及存储介质-CN202310638047.X在审
发明人：亢祖衡;彭俊清;王健宗;肖京 -专利权人：平安科技（深圳）有限公司
申请日： 2023-05-31 - 公布日： 2023-08-29 - 主分类号： G10L21/10 文献下载
摘要：本发明涉及语音分析领域，尤其涉及一种钢琴弹奏视频生成方法、装置、计算机设备及存储介质。其方法包括：获取音频流数据；将音频流数据输入音频编码器进行编码处理，得到音频编码；通过钢琴视频代码转换模型对音频编码进行代码转换，得到钢琴视频代码薄序列；通过钢琴视频代码薄解码器对钢琴视频代码薄序列进行解码处理，得到钢琴视频流数据；钢琴视频流数据是指人手在钢琴上弹奏与音频编码对应的音乐的视频流；将钢琴视频流数据和音频流数据进行合并，得到钢琴弹奏视频。本发明将音频流数据转换为具有人手弹奏钢琴的画面的视频流数据，并最终生成既包含音频又包含人手在钢琴上弹奏该音频的视频，使视频效果和质量更好，提高用户体验感。
钢琴弹奏视频生成方法装置计算机设备存储介质

[发明专利]基于转换系统的视频语音同步方法、装置、电子设备-CN202310633229.8在审
发明人：张旭龙;王健宗;程宁 -专利权人：平安科技（深圳）有限公司
申请日： 2023-05-31 - 公布日： 2023-08-22 - 主分类号： G10L21/10 文献下载
摘要：本申请实施例提供了一种基于转换系统的视频语音同步方法、装置、电子设备及存储介质，属于金融科技技术领域。该方法包括：基于转换系统对视频中的音频进行提取，得到原始语音文本以及语音特征信息；将原始语音文本输入预设翻译模型进行翻译，得到与原始语音文本对应的目标语音信息；根据语音特征信息对目标语音信息进行调整，得到目标合成语音；基于转换系统对视频进行检测，得到说话人的面部特征；将面部特征和目标合成语音输入训练好的对抗网络模型进行语音同步，得到说话人的嘴唇运动帧；根据嘴唇运动帧更新视频，得到目标视频。本申请实施例能够生成包含翻译的音频和经过调整的嘴唇动作的视频，实现视频中说话人的嘴唇和声音相匹配。
基于转换系统视频语音同步方法装置电子设备

[发明专利]模型训练、嘴部动作参数获取方法、装置、设备及介质-CN202110452759.3有效
发明人：陈泷翔;刘炫鹏;王鑫宇 -专利权人：深圳追一科技有限公司
申请日： 2021-04-26 - 公布日： 2023-08-22 - 主分类号： G10L21/10 文献下载
摘要：本申请公开了一种嘴部动作驱动模型训练方法、装置、嘴部动作参数获取方法、装置、电子设备及计算机可读存储介质，该训练方法包括：获取多种第一训练数据；将各个类别的第一训练数据分别输入初始模型中对应的输入网络，得到对应的输出值；初始模型包括一个主干网络；基于梯度下降原则，利用输出值调节主干网络，得到目标网络；获取第二训练数据，并基于梯度下降原则，利用第二训练数据训练初始驱动模型，得到嘴部动作驱动模型；综合多个任务，可以使得主干网络在训练过程中学会如何学习，学习各个任务之间的联系，适应各个任务对应的第一训练数据的情况，避免主干网络出现系统性错误，进而避免基于主干网络得到的嘴部动作驱动模型出现系统性错误。
模型训练动作参数获取方法装置设备介质

[发明专利]一种语音驱动图像的方法、系统、装置及存储介质-CN202310334646.2在审
发明人：李权;杨锦;彭绪坪;叶俊杰;王伦基;成秋喜;付玟 -专利权人：广州赛灵力科技有限公司
申请日： 2023-03-30 - 公布日： 2023-08-15 - 主分类号： G10L21/10 文献下载
摘要：本发明公开了一种语音驱动图像的方法、系统、装置及存储介质，包括：获取音频数据，并通过语音特征提取模型提取所述音频数据对应的音频特征向量；通过唇形表情预测模型和确定的表情情绪向量对所述音频特征向量进行预测，得到唇形表情偏移量序列；获取三维人脸基础模型，将所述三维人脸基础模型和所述唇形表情偏移量序列进行合成处理，得到三维人脸唇形表情动画。本发明实施例能够根据输入语音驱动图像生成包含唇形和表情的三维动画，效率高，稳定性好，可广泛应用于计算机技术领域。
一种语音驱动图像方法系统装置存储介质

[发明专利]语音口型匹配方法、装置、存储介质及电子设备-CN202310363302.4在审
发明人：夏明;郝冬宁 -专利权人：湖北星纪魅族科技有限公司
申请日： 2023-04-06 - 公布日： 2023-08-15 - 主分类号： G10L21/10 文献下载
摘要：本申请公开了一种语音口型匹配方法、装置、存储介质及电子设备，涉及计算机技术领域，其中方法包括：获得待匹配语音对应的文字，以及所述文字对应的发音时间；基于所述文字对应的口型形态键，生成所述文字对应的口型图；在所述文字对应的发音时间内展示所述文字对应的口型图。本申请提供的方法和装置，可以在各个文字对应的发音时间内展示其对应的口型图，使虚拟形象能够同步做出与语音匹配的口型动作，提高了语音和虚拟形象口型匹配的准确度。
语音口型匹配方法装置存储介质电子设备

1
2
3
4
5
6
7
8
9
下一页»
尾页
共 131 条