[发明专利]一种基于VR游戏的范畴知觉训练方法及系统有效

申请号：	202211713249.8	申请日：	2022-12-30
公开（公告）号：	CN115691545B	公开（公告）日：	2023-05-26
发明（设计）人：	刘浩然;王宁远;张晓薇;唐倩兰;田凯戈	申请（专利权）人：	杭州南粟科技有限公司
主分类号：	G10L21/10	分类号：	G10L21/10;G10L25/51;G09B19/22
代理公司：	杭州创智卓英知识产权代理事务所(普通合伙) 33324	代理人：	张迪
地址：	311100 浙江省杭州市余***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种基于VR游戏的范畴知觉训练方法及系统，包括：创建范畴知觉语音素材库，用于提供若干组训练素材；获取训练素材，用于获取所述比对语音对并生成语音对标准发音，获取所述比对语音对画面信息生成比对语音对动态画面、比对语音对静态画面，获取所述语音连续体并生成语音连续体近似发音；展示训练内容，用于向用户展示所述语音对标准发音与所述比对语音对动态画面或所述语音对标准发音与所述比对语音对静态画面或所述比对语音对动态画面；训练结果验证，用于引导用户操作，并控制向用户重复展示对应训练素材或控制向用户更换展示训练素材或结束训练，具有生成标准化的训练方式以及通过多维度的演示训练增强训练效果的优点。
搜索关键词：	一种基于 vr 游戏范畴知觉训练方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

暂无信息

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于杭州南粟科技有限公司，未经杭州南粟科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/202211713249.8/，转载请声明来源钻瓜专利网。

上一篇：一种基于快速在线迁移神经网络的光伏输出功率预测方法
下一篇：一种数据存储及读取方法

同类专利

听障人士与周围环境的信息互动方法及装置-202310830948.9
发明人：孟轲;徐洪赞;程雪松;张高然 -专利权人：浙江极氪智能科技有限公司;浙江吉利控股集团有限公司
申请日： 2023-07-06 - 公布日： 2023-10-27 - 主分类号： G10L21/10
摘要：本申请提供一种听障人士与周围环境的信息互动方法及装置。其中，听障人士与周围环境的信息互动方法包括获取声音接收器输入的车辆内部听障人士周围环境的声音；依据声音与可视信息的关联关系，转换所述声音为用于供听障人士识别的可视信息；及展示所述可视信息；所述可视信息用于供所述听障人士周围环境与所述听障人士进行信息互动。

图像的生成、模型训练方法、装置、电子设备及存储介质-202310417012.3
发明人：林楚铭;曹赟;罗栋豪;邰颖;汪铖杰 -专利权人：腾讯科技（深圳）有限公司
申请日： 2023-04-11 - 公布日： 2023-10-27 - 主分类号： G10L21/10
摘要：本申请公开了一种图像的生成、模型训练方法、装置、电子设备及存储介质。获取目标对象的第一原始图像和用于驱动目标对象动作的目标音频数据，基于目标音频数据，得到目标对象对应的第一渲染图像。从第一渲染图像中裁剪出包括嘴部区域的图像内容的第一子图，将第一子图覆盖拼接到第一原始图像中，得到第一合成图像，通过图像生成模型对第一合成图像进行优化，得到目标图像。在第一合成图像中，第一原始图像的部分能够提供真实且丰富的图像细节，图像生成模型可以基于这些细节信息，优化第一子图中的口腔和皮肤纹理，从而使得目标图像中嘴部区域的图像内容更为准确，可有效提高生成图像的质量。本申请的技术方案可广泛应用于图像处理技术领域。

一种基于多尺度字典的唇形同步方法-202311021061.1
发明人：刘学亮;步超飞;赵烨;汪萌;洪日昌 -专利权人：合肥工业大学
申请日： 2023-08-15 - 公布日： 2023-10-20 - 主分类号： G10L21/10
摘要：本发明涉及计算机视觉技术领域，公开了一种基于多尺度字典的唇形同步方法，包括：音频图像对的数据集建立；多尺度唇形字典的构建：利用预训练的VggFace模型提取FFHQ人脸图像数据集中人脸图像的多个尺度的人脸特征图，使用dlib人脸关键点检测器检测出每张人脸特征图上嘴唇的位置，得到嘴唇特征图；使用RoIAlign双线性插值方法将不同人脸图像相同尺度的嘴唇特征图，重新采样为相同尺寸；唇形同步模型的构建；唇形同步视频的生成。本发明中的唇形同步方法增加了多尺度唇形字典的引用，为嘴唇的生成提供完整的先验字典信息，能够实现更加真实的唇形驱动效果。

用户音高条的显示方法及计算机可读存储介质-202310833132.1
发明人：陈勇;蔡智力;苏财德;王艺伟 -专利权人：福建星网视易信息系统有限公司
申请日： 2023-07-07 - 公布日： 2023-10-03 - 主分类号： G10L21/10
摘要：本发明公开了一种用户音高条的显示方法及计算机可读存储介质，方法包括：根据预设的时长实时获取当前输入音频片段，并获取其音高值作为当前用户音高值；在各标准音高条中确定当前用户音高值对应的目标音高条，并获取目标音高条的音高值、时长和绘制宽高；根据歌曲曲谱对应的音域范围，修正当前用户音高值；根据修正后的当前用户音高值、当前输入音频片段对应的偏移时间和时长以及目标音高条的起止时间、横向起止位置、时长和绘制宽高，确定当前用户音高条在预设的音高条区域内的绘制位置和绘制宽高；根据当前用户音高条的绘制位置和绘制宽高，在音高条区域内绘制当前用户音高条。本发明能够更精准硬度地显示用户音高条。

基于神经场的语音驱动数字人生成方法-202311017166.X
发明人：张凯;周翔;张炜晨;陈文硕 -专利权人：清华大学深圳国际研究生院
申请日： 2023-08-14 - 公布日： 2023-09-29 - 主分类号： G10L21/10
摘要：一种基于神经场的语音驱动数字人生成方法，包括如下步骤：S1、使用人脸模型构建可变形的数字人脸；S2、对给定语音的音频特征进行编码，进行音频特征到所述数字人脸的表情空间的映射；S3、基于神经场表达，根据音频特征驱动所述标准空间的数字人；其中，基于神经占据场与神经纹理场得到在标准空间的数字人，对于所述标准空间里的空间坐标，由神经位移场根据音频特征输出对应的位移。进一步地，步骤S3还使用人脸语义作为显式控制信号，进行基于人脸语义的眼睛控制。对比传统方法，本发明可获得更同步的人脸躯干驱动以及眼睛睁闭控制，在图像质量以及语音同步指标上都超过了传统方法。

一种音频数据可视化处理方法、装置、设备及存储介质-202310891371.2
发明人：李泉 -专利权人：深圳市亿晟科技有限公司
申请日： 2023-07-20 - 公布日： 2023-09-29 - 主分类号： G10L21/10
摘要：本发明提供了一种音频数据可视化处理方法、装置、设备及存储介质，涉及信号处理技术领域。所述音频数据可视化处理方法，包括：获取原始音频数据，对原始音频数据进行特征分类，得到至少一个音频类别；对音频类别进行特征提取，得到特征信息；将特征信息转换为对应的用户界面元素；在获取针对用户界面元素的修改指令时，调整原始音频数据，得到修正音频数据。本发明能够将原始音频数据通过用户界面元素为用户提供音频视觉化的体验，以使得广大用户能够更加直观地感受和理解音频数据的内容，并通过对用户界面元素的修改，对音频数据进行调整。

表情动画的生成方法、装置和数字人平台-202310861185.4
发明人：林悦;曾然然;王磊;赵德欣 -专利权人：中国电信股份有限公司
申请日： 2023-07-13 - 公布日： 2023-09-22 - 主分类号： G10L21/10
摘要：本公开提供了一种表情动画的生成方法、装置和数字人平台，涉及人工智能领域，所述方法包括：获取语音中每个文字的信息，其中，所述信息包括第一信息和第二信息，所述第一信息包括每个文字对应的发音类型，所述第二信息包括所述语音中每个文字的音量的振幅；根据所述第一信息和所述第二信息，确定所述语音中每个文字的口型特征；根据所述口型特征生成所述语音中每个文字对应的表情动画。本公开能够提高表情动画与真人表情的相似度。

一种基于教师学生网络的语音驱动说话人脸视频生成方法-202110811278.7
发明人：熊盛武;陈燚雷;曾瑞;林承德;马宜祯 -专利权人：武汉理工大学
申请日： 2021-07-19 - 公布日： 2023-09-15 - 主分类号： G10L21/10
摘要：本发明涉及一种基于教师学生网络的语音驱动说话人脸视频生成方法。首先利用教师网络压缩出视频数据中的动态信息，接着利用学生网络学习语音到动态信息的预测，然后使用预训练好的教师网络提取的人脸动态信息作为监督，结合人脸身份信息实现语音驱动人脸的说话任务。相比于传统的任意说话人脸视频生成技术，本发明首次挖掘视频信号中的动态信息，在人脸生成、图片清晰度和生成说话人脸的视频唇形的准确度上有较大的提升。

多模态图像生成方法、装置、存储介质及电子设备-202311006934.1
发明人：孔欧 -专利权人：上海蜜度信息技术有限公司
申请日： 2023-08-11 - 公布日： 2023-09-12 - 主分类号： G10L21/10
摘要：本申请提供一种多模态图像生成方法、装置、存储介质及电子设备。所述多模态图像生成方法包括：对语音描述进行音频编码以获取语音嵌入；对所述语音描述进行语音识别以获取转写文本；对所述转写文本进行文本编码以获取第一文本嵌入；对文字描述进行文本编码以获取第二文本嵌入；根据所述语音嵌入、所述第一文本嵌入、所述第二文本嵌入和高斯采样嵌入获取隐层嵌入；根据所述隐层嵌入生成图像。所述多模态图像生成方法利用两种模态生成图像，由此生成的图像更能满足用户的需求。

语音动画生成方法、装置、电子设备和介质-202310847814.8
发明人：廖家聪;丘国辰;付星辉;孙钟前 -专利权人：腾讯科技（深圳）有限公司
申请日： 2023-07-12 - 公布日： 2023-09-08 - 主分类号： G10L21/10
摘要：本申请实施例公开了一种语音动画生成方法、装置、电子设备和介质，可以应用于语音技术等人工智能领域；本申请实施例获取特征提取网络和视素生成网络；通过第一音频数据、以及第一音频数据对应的口型标签，训练特征提取网络，得到训练后的特征提取网络；由训练后的特征提取网络，从第二音频数据中提取音素特征；由视素生成网络，生成音素特征对应的视素特征；通过视素特征、以及第二音频数据对应的音素标签，训练视素生成网络，得到训练后的视素生成网络，以便将训练后的特征提取网络以及训练后的视素生成网络用于生成语音动画。本申请中采用两种不同的音频数据和标签，进行有监督的两阶段训练过程，可以提高生成语音动画的准确性。

钢琴弹奏视频生成方法、装置、计算机设备及存储介质-202310638047.X
发明人：亢祖衡;彭俊清;王健宗;肖京 -专利权人：平安科技（深圳）有限公司
申请日： 2023-05-31 - 公布日： 2023-08-29 - 主分类号： G10L21/10
摘要：本发明涉及语音分析领域，尤其涉及一种钢琴弹奏视频生成方法、装置、计算机设备及存储介质。其方法包括：获取音频流数据；将音频流数据输入音频编码器进行编码处理，得到音频编码；通过钢琴视频代码转换模型对音频编码进行代码转换，得到钢琴视频代码薄序列；通过钢琴视频代码薄解码器对钢琴视频代码薄序列进行解码处理，得到钢琴视频流数据；钢琴视频流数据是指人手在钢琴上弹奏与音频编码对应的音乐的视频流；将钢琴视频流数据和音频流数据进行合并，得到钢琴弹奏视频。本发明将音频流数据转换为具有人手弹奏钢琴的画面的视频流数据，并最终生成既包含音频又包含人手在钢琴上弹奏该音频的视频，使视频效果和质量更好，提高用户体验感。

基于转换系统的视频语音同步方法、装置、电子设备-202310633229.8
发明人：张旭龙;王健宗;程宁 -专利权人：平安科技（深圳）有限公司
申请日： 2023-05-31 - 公布日： 2023-08-22 - 主分类号： G10L21/10
摘要：本申请实施例提供了一种基于转换系统的视频语音同步方法、装置、电子设备及存储介质，属于金融科技技术领域。该方法包括：基于转换系统对视频中的音频进行提取，得到原始语音文本以及语音特征信息；将原始语音文本输入预设翻译模型进行翻译，得到与原始语音文本对应的目标语音信息；根据语音特征信息对目标语音信息进行调整，得到目标合成语音；基于转换系统对视频进行检测，得到说话人的面部特征；将面部特征和目标合成语音输入训练好的对抗网络模型进行语音同步，得到说话人的嘴唇运动帧；根据嘴唇运动帧更新视频，得到目标视频。本申请实施例能够生成包含翻译的音频和经过调整的嘴唇动作的视频，实现视频中说话人的嘴唇和声音相匹配。

模型训练、嘴部动作参数获取方法、装置、设备及介质-202110452759.3
发明人：陈泷翔;刘炫鹏;王鑫宇 -专利权人：深圳追一科技有限公司
申请日： 2021-04-26 - 公布日： 2023-08-22 - 主分类号： G10L21/10
摘要：本申请公开了一种嘴部动作驱动模型训练方法、装置、嘴部动作参数获取方法、装置、电子设备及计算机可读存储介质，该训练方法包括：获取多种第一训练数据；将各个类别的第一训练数据分别输入初始模型中对应的输入网络，得到对应的输出值；初始模型包括一个主干网络；基于梯度下降原则，利用输出值调节主干网络，得到目标网络；获取第二训练数据，并基于梯度下降原则，利用第二训练数据训练初始驱动模型，得到嘴部动作驱动模型；综合多个任务，可以使得主干网络在训练过程中学会如何学习，学习各个任务之间的联系，适应各个任务对应的第一训练数据的情况，避免主干网络出现系统性错误，进而避免基于主干网络得到的嘴部动作驱动模型出现系统性错误。

一种语音驱动图像的方法、系统、装置及存储介质-202310334646.2
发明人：李权;杨锦;彭绪坪;叶俊杰;王伦基;成秋喜;付玟 -专利权人：广州赛灵力科技有限公司
申请日： 2023-03-30 - 公布日： 2023-08-15 - 主分类号： G10L21/10
摘要：本发明公开了一种语音驱动图像的方法、系统、装置及存储介质，包括：获取音频数据，并通过语音特征提取模型提取所述音频数据对应的音频特征向量；通过唇形表情预测模型和确定的表情情绪向量对所述音频特征向量进行预测，得到唇形表情偏移量序列；获取三维人脸基础模型，将所述三维人脸基础模型和所述唇形表情偏移量序列进行合成处理，得到三维人脸唇形表情动画。本发明实施例能够根据输入语音驱动图像生成包含唇形和表情的三维动画，效率高，稳定性好，可广泛应用于计算机技术领域。

语音口型匹配方法、装置、存储介质及电子设备-202310363302.4
发明人：夏明;郝冬宁 -专利权人：湖北星纪魅族科技有限公司
申请日： 2023-04-06 - 公布日： 2023-08-15 - 主分类号： G10L21/10
摘要：本申请公开了一种语音口型匹配方法、装置、存储介质及电子设备，涉及计算机技术领域，其中方法包括：获得待匹配语音对应的文字，以及所述文字对应的发音时间；基于所述文字对应的口型形态键，生成所述文字对应的口型图；在所述文字对应的发音时间内展示所述文字对应的口型图。本申请提供的方法和装置，可以在各个文字对应的发音时间内展示其对应的口型图，使虚拟形象能够同步做出与语音匹配的口型动作，提高了语音和虚拟形象口型匹配的准确度。

一种用于声控发光驻波实验仪的声光转换阵列-202110554205.4
发明人：张波;赵敏福;赵江东;葛畅;张伟功 -专利权人：皖西学院
申请日： 2021-05-20 - 公布日： 2023-07-21 - 主分类号： G10L21/10
摘要：本发明提供一种用于声控发光驻波实验仪的声光转换阵列，该声光转换阵列由若干个声光转换单元并联构成，所述声光转换单元主要由声信号拾取模块、信号放大模块、信号采集处理模块以及声强度和相位显示模块构成；所述声信号拾取模块将声音信号转换为电信号，所述信号采集处理模块将经所述信号放大模块放大后的电信号转换为数字量，处理后输出PWM信号，通过控制双色LED的发光亮度和颜色来反映声音信号的强度和相位。本发明的信号采集精度高、稳定性强、亮度和颜色显示控制精准，提高了声音信号频率检测范围；本发明所用的电子元件数量少、尺寸小，便于小尺寸高密度集成，易于安装至驻波管内壁，便于研究管内的声波特性。

声学成像方法及终端设备-202010431229.6
发明人：贺武君;王峰;党建新;魏鑫;南飞雁;朱永康;张二标 -专利权人：陕西金蝌蚪智能科技有限公司
申请日： 2020-05-20 - 公布日： 2023-07-07 - 主分类号： G10L21/10
摘要：本申请公开了一种声学成像方法及终端设备。其中方法包括：获取目标声源的多通道声信号；对多通道声信号进行声场重建处理，得到预定区域的声场；基于预配置的多种声场值范围分别对应的RGB转换规则，对声场进行RGB参数转换，得到伪彩图像，以将目标声源的多通道声信号处理为图像的目的。本申请通过对声信号的声场重建处理方式，不仅能够确定空间任意位置的声场值，还能依据预配置的多种声场值范围分别对应的RGB转换规则进行处理，将声信号转换为RGB参数，完成声信号至图像的转换。

音乐视觉化展示方法及装置-202211607075.7
发明人：朱渊远;苏衎 -专利权人：湖南快乐阳光互动娱乐传媒有限公司
申请日： 2022-12-14 - 公布日： 2023-07-04 - 主分类号： G10L21/10
摘要：本发明提供一种音乐视觉化展示方法及装置，包括：接收乐器的按键触发指令；确定所述乐器中所述按键触发指令对应的音乐按键，并获取所述音乐按键对应的画面展示规则；基于所述音乐按键对应的画面触发规则，确定所述音乐按键触发的画面配置类型，所述画面配置类型为背景配置或动画配置；基于所述音乐按键触发的画面配置类型，确定所述音乐按键对应的待展示的画面内容；展示所述画面内容。应用本发明提供的方法，可以对乐器每个音乐按键的设置对应的画面展示效果，丰富舞台效果。

一种音频波形图绘制和缩放方法、系统和存储介质-202310107787.0
发明人：赵权;李科军 -专利权人：昆明领飞科技有限公司
申请日： 2023-02-14 - 公布日： 2023-06-27 - 主分类号： G10L21/10
摘要：本发明第一方面提出一种基于Android的音频波形图绘制方法和系统，方法包括步骤：获取音频振幅数据；将音频按长度分段，每个分段的长度为设备屏幕宽度，将当前划过屏幕左侧的分段确定为主要分段，绘制主要分段右侧或左右两侧若干个分段的波形图；监听波形图的划动状态，当主要分段改变时，重新绘制当前的主要分段及主要分段左右两侧若干个分段的波形图。使用分段处理的方式，仅在每次切换主要分段时进行计算与重绘，可显著提高波形图的绘制效率。本发明第二方面提出一种音频波形图缩放方法和系统，方法包括监听缩放手势，记录缩放比例scale，根据缩放比例scale缩放波形图。

基于深度学习的音频处理方法和装置-202310127206.X
发明人：马捷径;夏舫;李海洋;王铮 -专利权人：北京甲板智慧科技有限公司
申请日： 2023-02-02 - 公布日： 2023-06-23 - 主分类号： G10L21/10
摘要：本发明实施例公开了一种基于深度学习的音频处理方法和装置，所述方法包括：获取待处理的音频数据和blendshapes数据；利用blendshapes数据对所述音频数据进行数据处理，并提取处理后的音频数据的梅尔频谱；将所述梅尔频谱输入预先训练的音频处理模型中，以得到动画驱动数据，所述动画驱动数据用于发送至应用端并驱动虚拟角色；其中，所述音频处理模型是基于深度学习网络利用梅尔频谱样本进行训练得到的，所述梅尔频谱样本是在数据处理后的音频数据样本中提取的。解决了现有技术中利用音频驱动表情时，驱动结果的准确性较和迁移性较差的问题。

数字人表情口型驱动方法、系统、电子设备和存储介质-202310280729.8
发明人：沈来信;邵岭;郑小林 -专利权人：特斯联科技集团有限公司
申请日： 2023-03-20 - 公布日： 2023-06-23 - 主分类号： G10L21/10
摘要：本公开的实施例提供一种数字人表情口型驱动方法、系统、电子设备和存储介质，方法包括：获取驱动语音；编码驱动语音，得到驱动语音的特征向量；输入驱动语音的特征向量至预先训练的拟合模型，生成口型blendshape值；采样眨眼blendshape值，拼接口型blendshape值和眨眼blendshape值，得到最终blendshape值；输入最终blendshape值至Unity客户端，得到数字人表情口型。本公开结合了Transformer模型和Gaussdiffusion模型的优势，拟合成更精准的blendshape特征参数集；同时利用模型融合和眨眼后处理优化，使生成的数字人表情和口型更加逼真。

一种回声混响效果参数的可视化曲线界面系统-202310165489.7
发明人：徐海;汪泽培 -专利权人：广州市迪声音响有限公司
申请日： 2023-02-27 - 公布日： 2023-06-16 - 主分类号： G10L21/10
摘要：本发明实施例涉及回声混响技术领域，具体公开了一种回声混响效果参数的可视化曲线界面系统。本发明实施例提供的一种回声混响效果参数的可视化曲线界面系统，包括：界面初始化单元；设置参数展示单元；声音识别提取单元，用于提取直达原声和回声混响声音；原声可视化展示单元，用于在原声可视化界面进行可视化曲线展示；回声混响可视化展示单元，用于在回声混响可视化界面进行可视化曲线展示。能够接收实时播放声音，识别分析并提取直达原声和回声混响声音，将直达原声和回声混响声音，分别在原声可视化界面和回声混响可视化界面进行可视化曲线展示，便于工作人员更加直观的观察回声混响的变化，方便工作人员进行更加专业的调节。

一种三维形象发音过程头部动作模拟方法-202211671532.9
发明人：周安斌;晏武志;李鑫;彭辰;潘见见 -专利权人：山东金东数字创意股份有限公司
申请日： 2022-12-26 - 公布日： 2023-06-09 - 主分类号： G10L21/10
摘要：本发明提供了一种三维形象发音过程头部动作模拟方法，属于三维虚拟形象技术领域，该三维形象发音过程头部动作模拟方法从视频库中获取人脸视频及对应的音频，将视频帧和音频帧对齐，提取多帧的人脸图像、头部姿态参数和梅尔频谱作为训练样本；对人脸图像进行预处理，生成擦除嘴部后的面部图像；建立三维形象头部模型并利用训练样本对三维形象头部模型进行训练，所述的三维形象头部模型包括音频特征提取模块、唇形同步模块、嘴部生成模块、头部姿态模块以及融合模块；利用训练好的三维形象头部模型，生成针对特定音频下的三维形象头部模型；本方法极大的降低了计算量，同时使得头部姿态与发音具有良好的联动，避免了三维形象发音过程呆板的现象。

深度学习模型的训练方法、控制虚拟形象口型变化的方法-202310306535.0
发明人：杜宗财;范锡睿;赵亚飞;张世昌;郭紫垣;王志强;陈毅 -专利权人：北京百度网讯科技有限公司
申请日： 2023-03-24 - 公布日： 2023-06-09 - 主分类号： G10L21/10
摘要：本公开提供了一种深度学习模型的训练方法，涉及人工智能技术领域，尤其涉及虚拟数字人、增强现实、虚拟现实、混合现实、扩展现实、元宇宙等技术领域。具体实现方案为：从指定长度的初始样本音频数据中确定随机长度的音频数据为有效数据，并掩蔽初始样本音频数据中除有效数据以外的音频数据，得到目标样本音频数据；提取目标样本音频数据的特征；将目标样本音频数据的特征输入深度学习模型，得到与初始样本音频数据对应的输出口型参数；根据输出口型参数确定深度学习模型的损失；以及根据损失调整深度学习模型的参数。本公开还提供了一种控制虚拟形象口型变化的方法、装置、电子设备和存储介质。

一种基于VR游戏的范畴知觉训练方法及系统-202211713249.8
发明人：刘浩然;王宁远;张晓薇;唐倩兰;田凯戈 -专利权人：杭州南粟科技有限公司
申请日： 2022-12-30 - 公布日： 2023-05-26 - 主分类号： G10L21/10
摘要：本发明涉及一种基于VR游戏的范畴知觉训练方法及系统，包括：创建范畴知觉语音素材库，用于提供若干组训练素材；获取训练素材，用于获取所述比对语音对并生成语音对标准发音，获取所述比对语音对画面信息生成比对语音对动态画面、比对语音对静态画面，获取所述语音连续体并生成语音连续体近似发音；展示训练内容，用于向用户展示所述语音对标准发音与所述比对语音对动态画面或所述语音对标准发音与所述比对语音对静态画面或所述比对语音对动态画面；训练结果验证，用于引导用户操作，并控制向用户重复展示对应训练素材或控制向用户更换展示训练素材或结束训练，具有生成标准化的训练方式以及通过多维度的演示训练增强训练效果的优点。

手语的生成方法、装置、电子设备和存储介质-202310036732.5
发明人：王玮;袁明亮;苏文畅;刘学学;李全 -专利权人：安徽听见科技有限公司
申请日： 2023-01-10 - 公布日： 2023-05-02 - 主分类号： G10L21/10
摘要：本申请提出一种手语的生成方法、装置、电子设备和存储介质，能够获取待转换信息，其中，待转换信息包括文本信息和/或语音信息。确定待转换信息的语义内容，并将语义内容转换为语义表达方式符合手语表达方式的手语语义内容。基于手语语义内容，生成手语动作影像。如此设置，能够基于待转换信息自动生成手语动作影像，确保听障人士能够获取到有效的外部信息。

数字人驱动视频生成方法、装置、电子设备及存储介质-202211697224.3
发明人：陆中远;李永翔 -专利权人：中国电信股份有限公司
申请日： 2022-12-28 - 公布日： 2023-04-28 - 主分类号： G10L21/10
摘要：本公开提供了一种数字人驱动视频生成方法、装置、电子设备及存储介质，涉及人工智能技术领域。该方法包括：获取对话文本的文本姿态向量，将最接近对话文本的文本姿态向量的视频表情姿态累计向量对应的模板视频确定为目标模板视频，将目标模板视频中的唇形进行替换，生成驱动视频，将驱动视频驱动用户照片，生成数字人视频。本公开实施例能高效驱动任意单张数字人照片进行对话。

一种图像生成方法、装置、设备以及存储介质-202110560359.4
发明人：吴潜溢;吴文岩;戴勃;王宇欣;高娜;钱晨 -专利权人：北京市商汤科技开发有限公司
申请日： 2021-05-21 - 公布日： 2023-04-28 - 主分类号： G10L21/10
摘要：本申请提出一种图像生成方法、装置、设备以及存储介质。其中，所述方法可以包括：接收音频数据，提取所述音频数据包括的音频序列对应的文本特征。所述文本特征表征对应音频序列的文本内容。基于所述音频序列对应的文本特征，进行面部特征映射，得到与所述音频序列对应的面部特征。所述面部特征表征所述音频序列对应的发音动作。根据所述音频序列对应的面部特征以及接收的人脸图像，生成与所述音频序列对应的发音人脸图像。

图形的显示方法、装置、存储介质及电子装置-202211733488.X
发明人：朱昱洁;李凤刚;于慧洁;唐贝贝;吴立 -专利权人：浙江大华技术股份有限公司
申请日： 2022-12-30 - 公布日： 2023-04-25 - 主分类号： G10L21/10
摘要：本发明实施例提供了一种图形的显示方法、装置、存储介质及电子装置，该方法包括：在接收到的目标音频的数据量大于或等于预设阈值的情况下，向目标服务发送目标请求；接收目标服务返回的第一音频，并在第一画布上绘制第一音频对应的第一波形图；在第一音频的播放时长达到预设时长的情况下，接收目标服务返回的第二音频，并在第一画布上将第二音频对应的第二波形图与第一波形图进行拼接，以得到目标波形图；在第二音频为被分割的目标音频中包括的最后一个音频的情况下，将第二画布上所显示的第一波形图替换为目标波形图，以在第二画布上显示目标波形图。通过本发明，解决了相关技术中存在的图形显示效率较低的问题。

声音可视化方法、装置、设备、存储介质及程序产品-202211701067.9
发明人：郭嘉;方迟 -专利权人：北京字跳网络技术有限公司
申请日： 2022-12-28 - 公布日： 2023-04-25 - 主分类号： G10L21/10
摘要：本申请提供的一种声音可视化方法、装置、设备、存储介质及程序产品，应用于扩展现实设备，包括：通过设置于扩展现实设备的声音传感器获取声音数据，确定声音数据的声源方向；对声音数据进行声音识别，确定声音数据的声源对象，生成声源对象对应的声源标识；在扩展现实场景中与声源方向对应位置处显示声源标识。本申请利用声音传感器去感知用户周围的声音，确定声源方向，再根据声音对声源进行识别，最终将声源对应的标识显示于扩展现实场景与声源方向相一致的位置处。以此提示用户在其显示标识的方向上有该标识对应的物体正在发出声音，并最终让用户能够“看到”声音传播方位，并知晓声源物体，提升声音的可视化表现效果，提升用户体验。

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于VR游戏的范畴知觉训练方法及系统有效

专利文献下载