[发明专利]视频处理方法、视频处理装置和电子设备在审

申请号：	202211145675.6	申请日：	2022-09-20
公开（公告）号：	CN115579023A	公开（公告）日：	2023-01-06
发明（设计）人：	向永航	申请（专利权）人：	维沃移动通信有限公司
主分类号：	G10L25/57	分类号：	G10L25/57
代理公司：	北京路浩知识产权代理有限公司 11002	代理人：	杨明月
地址：	523863 ***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本申请公开了一种视频处理方法、视频处理装置和电子设备，属于电子技术领域。所述视频处理方法，包括：获取图像序列和多个音频信息，所述多个音频信息与多个语音对象一一对应；基于所述图像序列对应的特征、所述音频信息对应的特征和所述语音对象对应的特征中的至少一种，从所述多个音频信息中确定目标音频信息；基于所述图像序列和所述目标音频信息，生成目标视频。
搜索关键词：	视频处理方法装置电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

暂无信息

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于维沃移动通信有限公司，未经维沃移动通信有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/202211145675.6/，转载请声明来源钻瓜专利网。

上一篇：一种空分系统和空分系统的控制方法
下一篇：一种电缆接头防火防爆处理系统及方法

同类专利

信息处理方法、装置、电子设备以及存储介质-202310909278.X
发明人：秦志伟 -专利权人：百度在线网络技术(北京)有限公司
申请日： 2023-07-24 - 公布日： 2023-10-24 - 主分类号： G10L25/57
摘要：本公开提供了信息处理方法、装置、电子设备以及存储介质，涉及数据处理技术领域，尤其涉及视频处理技术领域、音频处理技术领域和人工智能技术领域。具体实现方案为：识别原始媒体信息中的异常词，异常词与原始媒体信息中，被确定为目标对象的口语化表述信息相对应，原始媒体信息与目标对象相关；以及根据异常词更新原始媒体信息，得到更新后的媒体信息。

说话头视频合成方法、装置、电子设备及存储介质-202310764110.4
发明人：丁万;黄东延;杨显杰;郑泽鸿;李鹏辉 -专利权人：深圳市优必选科技股份有限公司
申请日： 2023-06-26 - 公布日： 2023-10-20 - 主分类号： G10L25/57
摘要：本申请公开了一种说话头视频合成方法、说话头视频合成装置、电子设备及存储介质。该方法包括：获取待合成的语音数据及观测数据，所述观测数据为除语音数据之外的通过观测所得的数据；对所述语音数据进行特征提取，得到所述语音数据所对应的语音特征，以及，对所述观测数据进行特征提取，得到所述观测数据所对应的非语音特征；对所述语音特征及第一非语音特征进行时序建模，得到低维表征，其中，所述第一非语音特征为：对时序变化敏感的非语音特征；基于所述低维表征及第二非语音特征进行视频合成，得到说话头视频，其中，所述第二非语音特征为：对时序变化不敏感的非语音特征。通过本申请方案，可以降低说话头视频合成时的复杂度，减少合成耗时。

音视频处理方法、合成方法、装置、电子设备及存储介质-201910713206.1
发明人：王胜 -专利权人：腾讯科技（深圳）有限公司
申请日： 2019-08-02 - 公布日： 2023-10-20 - 主分类号： G10L25/57
摘要：本发明公开了一种音视频处理方法、合成方法、装置、电子设备及存储介质，所述音视频处理方法包括：获取待处理音频数据，所述待处理音频数据是麦克风对扬声器输出的携带有第一特定音频数据的源音频数据进行采集生成的；确定所述待处理音频数据中第二特定音频数据的位置，所述第二特定音频数据为携带背景噪声的第一特定音频数据；基于所述第二特定音频数据在所述待处理音频数据中的位置，从所述待处理音频数据中将所述第二特定音频数据和延迟音频数据移除，得到目标音频。采用本发明所提供的音视频处理方法、合成方法、装置、电子设备及存储介质解决了现有技术中短视频多段录制过程中音视频合成时的背景音乐不连续的问题。

基于语音数据的推荐信息确定方法及相关装置-202310949116.9
发明人：王一 -专利权人：深圳市人马互动科技有限公司
申请日： 2023-07-28 - 公布日： 2023-10-13 - 主分类号： G10L25/57
摘要：本申请提供了一种基于语音数据的推荐信息确定方法及相关装置，包括：获取推荐请求；获取所述用户针对参考历史推荐信息的参考语音互动数据；根据所述参考语音互动数据确定所述用户针对每个参考历史推荐信息的实际互动时长；确定所述实际互动时长大于第一预设时长的参考历史推荐信息为目标历史推荐信息；根据所述目标语音互动数据确定所述用户针对每个目标历史推荐信息的互动连续性；根据所述互动连续性从所述目标历史推荐信息中确定可用历史推荐信息；获取所述用户的基本信息；根据所述可用历史推荐信息、所述可用语音互动数据和所述基本信息确定目标推荐标签；根据所述目标推荐标签确定目标推荐信息。可以提高推荐信息的确定的准确度。

一种音频处理方法、装置及计算机设备、存储介质-202310824711.X
发明人：李廷天;肖鑫雨 -专利权人：腾讯科技（深圳）有限公司
申请日： 2023-07-06 - 公布日： 2023-09-15 - 主分类号： G10L25/57
摘要：本申请实施例提供一种音频处理方法、装置及计算机设备、存储介质。该音频处理方法涉及人工智能技术领域的音频处理技术，该音频处理方法包括：获取待处理的音频；对音频的每个音频片段进行特征分析，得到每个音频片段的特征信息；基于音频中的各个音频片段的特征信息，对每个音频片段进行拼接预测，得到每个音频片段的拼接预测结果；拼接预测结果用于指示相应音频片段中音频拼接点的包含情况；每个音频片段的拼接预测结果是基于每个音频片段的特征信息与其前序音频片段的特征信息进行拼接预测得到的；根据音频中的各个音频片段的拼接预测结果，对音频进行音频业务处理。采用本申请实施例，可以较为准确地对音频进行音频拼接点预测。

噪声提取方法、装置、设备及可读存储介质-202310909882.2
发明人：潘青华;丁杰;汪锦想;于振华;胡国平;刘聪;魏思;王士进;刘权 -专利权人：科大讯飞股份有限公司
申请日： 2023-07-24 - 公布日： 2023-08-22 - 主分类号： G10L25/57
摘要：本申请公开了一种噪声提取方法、装置、设备及可读存储介质，在获取待进行噪声提取的视频；先确定视频中的各个有效音频片段以及与有效音频片段对应的子视频片段；再针对每个有效音频片段，基于有效音频片段对应的子视频片段的字幕信息，从有效音频片段中提取噪声。在本方案中，考虑到实际应用场景下的有效音频片段中往往包含噪声，在确定有效音频片段之后，进一步利用有效片段对应的子视频片段的字幕信息，确定有效音频片段中是否有噪声，进而实现对有效音频片段中的噪声的提取，因此，能够提升噪声的提取效果。

一种基于VC模型的嘴部动作驱动模型训练方法及组件-202110424539.X
发明人：陈泷翔;刘炫鹏;王鑫宇;刘云峰 -专利权人：深圳追一科技有限公司
申请日： 2021-04-20 - 公布日： 2023-08-04 - 主分类号： G10L25/57
摘要：本申请公开了一种基于VC模型的嘴部动作驱动模型训练方法及组件。本申请使用VC模型调整训练数据的音色参数/语种参数，从而得到特定音色/语种的目标特征，之后以该目标特征作为模型训练数据，从而可训练得到支持特定音色/语种的得到嘴部动作驱动模型，可以降低训练数据的复杂性，减少训练数据量和训练成本，同时还不会影响嘴部动作驱动模型的通用性。相应地，本申请提供的一种基于VC模型的嘴部动作驱动模型训练组件，也同样具有上述技术效果。

基于视频交互的认证方法、系统以及相关装置-202211604782.0
发明人：吴为;蔡翱;王和潭 -专利权人：科大讯飞股份有限公司;讯飞华中（武汉）有限公司
申请日： 2022-12-13 - 公布日： 2023-08-01 - 主分类号： G10L25/57
摘要：本申请公开了一种基于视频交互的认证方法、系统以及相关装置，该方法包括：获取第一方和第二方交互时产生的初始视频流，确定所述初始视频流中的开始朗读标识和终止朗读标识；其中，所述开始朗读标识与第一客户端上触发的开始朗读协议文本的时刻对应，所述终止朗读标识与所述第一客户端上触发的终止朗读所述协议文本的时刻对应，所述第一客户端与所述第一方对应；基于所述开始朗读标识和所述终止朗读标识，从所述初始视频流中获得所述第一方的第一音频信息，并基于所述第一音频信息获得第一识别文本；基于所述第一识别文本和所述协议文本，判断是否完成认证。通过上述方式，本申请能够提高视频交互过程中认证的效率。

音口同步识别方法、音口同步识别网络的训练方法及装置-202310447732.4
发明人：王镜茹 -专利权人：京东方科技集团股份有限公司;北京京东方技术开发有限公司
申请日： 2023-04-24 - 公布日： 2023-07-04 - 主分类号： G10L25/57
摘要：本发明提供一种音口同步识别方法、音口同步识别网络的训练方法及装置，该音口同步识别方法包括：获取待识别视频的第一音频信号，第一音频信号的时长为第一时长；获取待识别视频中的与第一音频信号对应的N帧视频帧，N根据第一时长和待识别视频的帧率确定；获取N帧视频帧中的唇部关键点信息；将第一音频信号输入到音口同步识别网络的音频编码器中进行编码处理得到音频特征向量；将唇部关键点信息输入到音口同步识别网络的图像编码器中进行编码处理得到图像特征向量；采用音口同步识别网络的损失函数确定音频特征向量和图像特征向量之间的距离，根据距离确定音口是否同步。本发明能够对不同帧率的视频进行音口同步识别。

声音检测方法及相关设备-202310000609.8
发明人：顾海军;赵刚强;金伟;应红力 -专利权人：杭州觅睿科技股份有限公司
申请日： 2023-01-03 - 公布日： 2023-06-20 - 主分类号： G10L25/57
摘要：本申请公开了一种声音检测方法、装置、电子设备及计算机可读存储介质，方法包括：获取关于目标对象的音视频数据，在所述音视频数据中提取获得音频数据和图像数据；分别对所述音频数据和所述图像数据进行特征提取，获得音频特征和图像特征；将所述音频特征和所述图像特征输入至声源定位模型进行处理；当所述声源定位模型输出关于所述目标对象的声源定位图时，利用多模态特征融合模型对所述声源定位图和所述音频特征进行识别，确定所述音视频数据中是否存在所述目标对象的目标音频。应用本申请提供的技术方案，可以有效减少漏检、误检问题，提高声音检测结果的准确性。

视频处理方法、装置及计算机可读存储介质-202111214979.9
发明人：陈川涛;刘洋;崔晓宇 -专利权人：中移（杭州）信息技术有限公司;中国移动通信集团有限公司
申请日： 2021-10-19 - 公布日： 2023-04-25 - 主分类号： G10L25/57
摘要：本申请实施例提供一种视频处理方法、装置及计算机可读存储介质，其中，方法包括：对待处理视频进行图像识别，得到所述待处理视频中的目标对象的图像识别结果；对所述待处理视频进行音频信息提取，得到待处理音频；根据所述图像识别结果，对所述待处理音频进行特征信息提取，得到音频特征；通过所述音频特征，对所述待处理音频进行降噪处理，得到降噪后的音频；将所述降噪后的音频融合至所述待处理视频中，得到处理后的视频。

一种音视频处理方法、装置、设备及介质-202211511151.4
发明人：豆红雷 -专利权人：杭州华橙软件技术有限公司
申请日： 2022-11-29 - 公布日： 2023-04-04 - 主分类号： G10L25/57
摘要：本申请提供一种音视频处理方法、装置、设备及介质，用于提高音视频播放的智能性，提高用户体验。该方法包括：第一设备获取摄像机采集的第一音视频数据；第一设备从第一音频数据中提取至少一个第一声音特征，从第一视频数据中提取至少一个第一人物特征；第一设备根据声音特征和人物特征的映射信息，确定至少一个第一声音特征与至少一个第一人物特征的对应关系；第一设备根据至少一个第一声音特征与至少一个第一人物特征的对应关系处理第一音视频数据，得到第二音视频数据；第一设备向第二设备发送第二音视频数据；第二设备播放第二音视频数据，在播放到人声时，视频画面中对应至少一个人物的图像区域上显示有标记信息。

语音处理方法和模型训练方法及电子设备-202111148233.2
发明人：范泛;罗敬昊 -专利权人：华为技术有限公司
申请日： 2021-09-29 - 公布日： 2023-03-31 - 主分类号： G10L25/57
摘要：本申请实施例提供了一种语音处理方法和模型训练方法及电子设备。该语音处理方法包括：当确定视频画面发生变焦时，获取变焦参数、所述视频的第一视频语音数据和画面变焦后的视频画面数据；然后通过对所述变焦后的视频画面数据和所述第一视频语音数据进行多模态融合处理，以得到第二视频语音数据；接着，基于所述变焦参数对所述第二视频语音数据进行变焦，得到第三视频语音数据，输出所述第三视频语音数据。这样，通过多模态融合处理，有效的抑制视频语音数据中的噪声和混响，进而仅对抑制噪声和混响后的视频语音数据进行变焦，能够提高变焦后的视频语音数据的质量，以及提高用户体验。

基于视频彩铃识别客户的方法、系统、装置及存储介质-202111570117.X
发明人：魏颖鹏 -专利权人：天翼爱音乐文化科技有限公司
申请日： 2021-12-21 - 公布日： 2023-03-14 - 主分类号： G10L25/57
摘要：本申请公开了一种基于视频彩铃识别客户的方法、系统、装置及存储介质。该方法通过获取视频彩铃信息并将其输入UNet神经网络模块，得到视频语音信息，并对其进行语音识别处理，得到视频语音文本信息；获取关键帧图像信息并对其进行处理，得到关键帧文字信息和关键帧标题信息；将视频语音文本信息、关键帧文字信息和关键帧标题信息输入标签动态调整模块，得到识别的客户信息。该系统包括第一获取模块、第一处理模块、第二处理模块、第二获取模块、第三处理模块、第四处理模块和第五处理模块。上述方法能够通过视频彩铃识别客户，有利于降低人力成本，有利于提升识别效率，同时，有利于缓解客户敏感信息泄露的风险。本申请可应用于人工智能技术领域。

基于语音的动作生成方法、装置、电子设备及存储介质-202211435101.2
发明人：何山;周良;殷兵;刘聪;戴礼荣 -专利权人：科大讯飞股份有限公司
申请日： 2022-11-16 - 公布日： 2023-03-07 - 主分类号： G10L25/57
摘要：本申请提出一种基于语音的动作生成方法、装置、电子设备及存储介质，该方法包括：确定目标语音中包含的动作意图，并确定与所述动作意图相匹配的第一动作序列；以及，从所述目标语音中提取得到语音韵律特征，并基于所述语音韵律特征预测得到与所述语音韵律特征相匹配的第二动作序列；对所述第一动作序列和所述第二动作序列进行融合处理，生成与所述目标语音相匹配的动作序列。上述方案通过多维度的信息生成了与目标语音相匹配的动作序列，从而使得生成的与目标语音相匹配的动作序列更准确，并且更加自然、协调。

视频处理方法、视频处理装置和电子设备-202211145675.6
发明人：向永航 -专利权人：维沃移动通信有限公司
申请日： 2022-09-20 - 公布日： 2023-01-06 - 主分类号： G10L25/57
摘要：本申请公开了一种视频处理方法、视频处理装置和电子设备，属于电子技术领域。所述视频处理方法，包括：获取图像序列和多个音频信息，所述多个音频信息与多个语音对象一一对应；基于所述图像序列对应的特征、所述音频信息对应的特征和所述语音对象对应的特征中的至少一种，从所述多个音频信息中确定目标音频信息；基于所述图像序列和所述目标音频信息，生成目标视频。

一种说话视频生成方法及系统-201911402438.1
发明人：刘永进;易冉 -专利权人：清华大学
申请日： 2019-12-30 - 公布日： 2022-12-09 - 主分类号： G10L25/57
摘要：本发明实施例提供一种说话视频生成方法及系统，该方法包括：基于训练好的深度神经网络语音模型，对预设音频文件进行预测处理，得到人脸表情系数序列和第一人脸姿势系数序列；对短视频文件进行三维人脸重建和渲染处理，得到人脸图像序列，并将短视频文件的背景匹配到人脸图像序列，得到背景匹配后的人脸图像序列；基于训练好的深度神经网络细化模型，对背景匹配后的人脸图像序列进行处理，得到目标人脸图像序列，以根据目标人脸图像序列和预设音频文件，合成得到目标人物的说话视频。本发明实施例通过在说话视频生成过程中引入三维人脸信息，并结合神经网络模型生成头部姿势自然转动且具有个性化说话习惯的说话视频。

一种图像辅助音频补全的音频重构方法及装置-202211062049.0
发明人：黄于晏;陈畅新 -专利权人：有米科技股份有限公司
申请日： 2022-09-01 - 公布日： 2022-12-06 - 主分类号： G10L25/57
摘要：本发明公开了一种图像辅助音频补全的音频重构方法及装置，该方法包括：根据视频预处理方案对待处理视频执行预处理操作，得到音频、图像数据，音频数据为经过空白音频去除、采样率转换及特征提取操作中的至少一种操作后得到的数据；根据音频重构模型对音频数据执行一级重构操作，得到待融合向量；对待融合向量以及图像数据的维度向量执行二级重构操作，得到二级重构结果，二级重构结果用于确定音频重构模型的音频损失参数，当判断出音频损失参数表示音频重构模型的模型收敛参数在预设收敛阈值内时，确定完成针对音频重构模型的训练任务。可见，实施本发明能够基于图像实现音频重构，提高音频重构的准确性并提高重构音频与视频内容的匹配度。

语音响应时间的识别方法及装置-202110524623.9
发明人：陈姿 -专利权人：腾讯科技（北京）有限公司
申请日： 2021-05-13 - 公布日： 2022-11-15 - 主分类号： G10L25/57
摘要：本申请公开了一种语音响应时间的识别方法及装置。应用于语音识别技术领域。其中，该方法包括：获取对目标设备的显示屏幕进行录制所得到的目标视频，其中，目标视频包括对目标设备输入目标语音指令时显示屏幕上显示的画面；对目标视频中的帧图像进行字符识别，得到第一信息中的首字符出现的第一帧图像，以及第一信息中的尾字符出现的第二帧图像，其中，第一信息是目标设备对目标语音指令进行语音识别所得到的、且显示在显示屏幕上的部分或全部信息；根据第一帧图像对应的第一时间戳和第二帧图像对应的第二时间戳，确定目标设备的语音响应时间。本发明解决了相关技术中的语音响应时间的识别效率较低的技术问题。

用于异步视频设置中的自动候选者评估的系统和方法-202180025203.4
发明人： A.普雷乌斯;R.贾斯滕霍文;N.克鲁斯;N.马丁 -专利权人：卡宜评估全球控股有限公司
申请日： 2021-01-28 - 公布日： 2022-11-11 - 主分类号： G10L25/57
摘要：在说明性实施例中，用于自动化记录的候选者评估的系统和方法包括接收对空缺职位的提交，该提交包括对一个或多个面试问题中的每个面试问题的问题响应记录。对于每个问题响应记录，可以通过对记录的音频部分应用语音到文本算法来生成抄本。该系统和方法可以通过应用被训练来检测与个性模型的个性方面相关联的单词和短语的自然语言分类器，在抄本中检测每个与个性方面相关联的标识符。可以基于相应个性方面与相应面试问题和检测到的标识符的相关性来为每个个性方面计算分数。响应于接收到查看面试结果的请求，可以在用户界面屏幕内呈现分数。

违规音频流的识别方法、装置、计算机设备和存储介质-202210907944.1
发明人：钟正阳;李一文;刘名运;周渝雄 -专利权人：湖南映客互娱网络信息有限公司
申请日： 2022-07-29 - 公布日： 2022-10-11 - 主分类号： G10L25/57
摘要：本申请涉及一种违规音频流的识别方法、装置、计算机设备和存储介质。所述方法包括：获取一个直播间的多路音频流，根据每路音频流上绑定的音频检测器和滤波器对音频流进行监听和计算，得到音频码率，将当前时刻的音频码率与上一时刻的音频码率进行相减，得到增量码率，通过将增量码率与上一时刻的音频码率进行比较生成音频趋势值，将音频趋势值与预先设置的音频趋势阈值进行比较来判断音频流是否具有声音，并将具有声音的音频流赋予标签，通过听取声音内容以及标签对多路音频流进行识别，抓取得到违规音频流。采用本方法能够有效加快违规音频流的抓取，且通过直接听取多路音频流的声音内容来识别违规内容，提高了违规识别的准确率。

视频分发方法、装置、可读介质及电子设备-202210621894.0
发明人：孙健;陈智鹏;何怡;马泽君 -专利权人：北京有竹居网络技术有限公司
申请日： 2022-06-01 - 公布日： 2022-09-09 - 主分类号： G10L25/57
摘要：本公开涉及一种视频分发方法、装置、可读介质及电子设备。该方法包括：根据每个非静音音频片段识别出的每个字符的置信度，获得该非静音音频片段的语言标签的置信度；根据每个非静音音频片段的语言标签的置信度，获得所述视频的语言标签的概率值；根据所述视频的语言标签的概率值，对所述视频进行处理。通过上述技术方案，在视频分发时，仅需设置每个业务方/用户对每种语言的概率值要求，即可将符合要求的视频发送至对应目标用户，或者在视频不满足任何用户的情况丢弃该视频，便于根据语言对视频进行分发。

音视频剪辑方法及装置-202210542292.6
发明人：高强;李旭;刘杨;李强 -专利权人：北京飞象星球科技有限公司
申请日： 2022-05-18 - 公布日： 2022-09-02 - 主分类号： G10L25/57
摘要：本说明书提供音视频剪辑方法及装置，其中所述音视频剪辑方法包括：获取待剪辑音视频，并确定所述待剪辑音视频关联的音频文件；基于所述待剪辑音视频关联的目标语义将所述音频文件转换为至少一个音频文本，以及确定每个音频文本对应的文本时间区间；根据所述目标语义在所述至少一个音频文本中确定目标音频文本，并确定所述目标音频文本对应的目标文本时间区间；按照所述目标文本时间区间对所述待剪辑音视频进行剪辑，获得目标音视频。

基于人员隐私保护的视频水声检测方法及装置-202210280191.6
发明人：武文;孟庆超;王俊杰 -专利权人：南京惠积信息科技有限公司
申请日： 2022-03-21 - 公布日： 2022-08-02 - 主分类号： G10L25/57
摘要：本发明公开一种基于人员隐私保护的视频水声检测方法及装置。该方法将声道混合分为新左声道里原左声道所占的百分数a1、新左声道里原右声道所占的百分数a2、新右声道里原左声道所占的百分数b1、新右声道里原右声道所占的百分数b2；将a1、a2、b1、b2四个数值分别设为：100,‑100,‑100,100；将消除人声处理后的整段的音频数据分割成数段音频数据，每段音频数据时长为2S后进行归一化、分帧、加窗、去噪处理，求取梅尔倒谱矩阵；将梅尔倒谱矩阵输入预先训练的隐马尔科夫模型进行水声识别；使用隐马尔可夫模型训练一个识别水声的模型，加入用户隐私保护装置，在采集声音的基础上，保护用户的隐私。

一种基于声像同步的鱼类摄食发声监测系统-202011595229.6
发明人：曲蕊;张宇雷;刘晃;高倩倩 -专利权人：中国水产科学研究院渔业机械仪器研究所
申请日： 2020-12-29 - 公布日： 2022-07-01 - 主分类号： G10L25/57
摘要：本发明公开了一种基于声像同步的鱼类摄食发声监测系统，其包括：图像采集组件，包括用于获取鱼池水面图像的摄像头，所述摄像头与视频存储装置连接；水生采集组件，包括水听器、AD转换器以及录音平台，用于获取鱼池中鱼类进食的水声信号；信号处理装置，与所述视频存储装置以及所述录音平台通信连接，用于接收视频信号以及水声信号，对二者进行同步化处理，并在水声信号降噪后进行频谱分析，并参照视频信号对水声信号中鱼类进食的声学特征进行提取。声像同步的鱼类摄食发声监测方法将机器视觉的图像处理以及声学反馈技术相结合，可以在鱼不受到干扰的情况下对鱼的行为进行全面的观察和记录。

基于语音来改变图像的系统-202180005627.4
发明人：关根洁 -专利权人：互动解决方案公司
申请日： 2021-02-12 - 公布日： 2022-05-10 - 主分类号： G10L25/57
摘要：本发明提供一种基于对话来实时改变共享图像的系统。基于语音来改变图像的系统(1)具有语音信息输入部(3)、语音分析部(5)和图像变化部(7)，其中，所述语音信息输入部(3)用于输入语音信息；所述语音分析部(5)用于分析由语音信息输入部(3)输入的语音信息；所述图像变化部(7)使用语音分析部(5)分析出的语音信息中所包含的与内容有关的信息和与内容的变化有关的信息，来改变内容在表示内容的图像中的位置。

一种音频处理方法及电子设备-202010167788.0
发明人：胡吉祥 -专利权人：维沃软件技术有限公司
申请日： 2020-03-11 - 公布日： 2022-04-26 - 主分类号： G10L25/57
摘要：本发明实施例提供了一种音频处理方法及电子设备，该方法会先获取待处理音频对应的文本信息，其中，文本信息包括待处理文本及待处理文本中各个字段对应的播放时段，再接收针对待处理文本的第一输入，响应于该第一输入，将待处理文本中第一输入指示的字段确定为待处理字段，接着，接收针对待处理字段的第二输入，响应于该第二输入，获取目标音频段，最后，根据目标音频段，对待处理字段对应的播放时段处的音频段进行修改，得到目标音频。这样，无需手动调整进度条，即可实现对音频的修改，因此可以提高音频处理效率。

状态确定方法及装置、存储介质及电子装置-202111372336.7
发明人：彭志伟 -专利权人：青岛海尔科技有限公司;海尔智家股份有限公司
申请日： 2021-11-18 - 公布日： 2022-04-01 - 主分类号： G10L25/57
摘要：本发明公开了一种状态确定方法及装置、存储介质及电子装置，其中，上述方法包括：建立与多媒体采集装置的通信连接，并基于所述通信连接获取所述多媒体采集装置所采集的第一目标对象的多媒体数据，其中，所述多媒体数据包括：音频数据和图像数据；根据所述音频数据和所述图像数据确定所述第一目标对象的当前状态，其中，所述第一目标对象的年龄小于预设年龄；在所述当前状态符合预设条件的情况下，获取与所述当前状态对应的提示信息，并将所述当前状态与所述当前状态对应的提示信息发送至第二目标对象，以指示所述第二目标对象根据所述当前状态与所述提示信息执行目标操作。

一种从视频中分离音源的方法-201911124411.0
发明人：刘华平;刘馨竹;刘晓宇;郭迪;孙富春 -专利权人：清华大学
申请日： 2019-11-18 - 公布日： 2022-03-11 - 主分类号： G10L25/57
摘要：本发明提出一种从视频中分离音源的方法。该方法由训练阶段和测试阶段两个阶段构成。该方法在训练阶段构建一个由视觉目标检测网络、声音特征提取网络和声音分离网络组成的音源分离模型，从训练数据中选取两个不同类别的视频将其音频混合，训练音源分离模型使之能够从混合音频中精确的分离出两个视频对应的原音频。在测试阶段，获取测试视频后将其输入训练完毕的音源分离模型，模型检测视频中的所有视觉目标，并从原始音频中分离出各个视觉目标对应的声音。本发明可以从目标物体级别上对音源进行分离，能够检测出视频中出现的所有目标物体并将其与分离出的对应声音进行自动匹配，建立了各视觉目标物体和分离后的声音之间的联系，应用前景广阔。

生成音乐视频的方法、存储介质和电子设备-202111348161.6
发明人：梅立锋;杨跃;董治;雷兆恒 -专利权人：腾讯音乐娱乐科技（深圳）有限公司
申请日： 2021-11-15 - 公布日： 2022-02-18 - 主分类号： G10L25/57
摘要：本申请公开一种生成音乐视频的方法，包括：利用第一网络模型对所述目标音频进行分类，获取所述目标音频对应的音频类别；利用第二网络模型对所述目标音频进行音轨分离处理，获取多个分离音轨；生成各个所述分离音轨的谐波和冲击波，基于各个所述分离音轨的谐波和冲击波生成每一音频帧的音频特征向量；基于每一音频帧的音频特征向量生成每一音频帧的音频特征向量增量；利用与所述音频类别对应的第三网络模型处理每一音频帧的音频特征向量增量，获取每一音频帧对应的视频帧；对每一音频帧对应的视频帧进行合成处理，生成目标动态视频。本申请还提供一种计算机可读存储介质、电子设备。本申请的方案能高效生成与目标音频类型关联的音乐视频，生成的音乐视频能够与音频特征匹配。

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]视频处理方法、视频处理装置和电子设备在审

专利文献下载