“G10L25/57”专利分类搜索_专利查询_文献下载_出售_求购_买卖_交易

钻瓜专利网为您找到相关结果50个，建议您升级VIP下载更多相关专利

[发明专利]信息处理方法、装置、电子设备以及存储介质-CN202310909278.X在审
发明人：秦志伟 -专利权人：百度在线网络技术(北京)有限公司
申请日： 2023-07-24 - 公布日： 2023-10-24 - 主分类号： G10L25/57 文献下载
摘要：本公开提供了信息处理方法、装置、电子设备以及存储介质，涉及数据处理技术领域，尤其涉及视频处理技术领域、音频处理技术领域和人工智能技术领域。具体实现方案为：识别原始媒体信息中的异常词，异常词与原始媒体信息中，被确定为目标对象的口语化表述信息相对应，原始媒体信息与目标对象相关；以及根据异常词更新原始媒体信息，得到更新后的媒体信息。
信息处理方法装置电子设备以及存储介质

[发明专利]说话头视频合成方法、装置、电子设备及存储介质-CN202310764110.4在审
发明人：丁万;黄东延;杨显杰;郑泽鸿;李鹏辉 -专利权人：深圳市优必选科技股份有限公司
申请日： 2023-06-26 - 公布日： 2023-10-20 - 主分类号： G10L25/57 文献下载
摘要：本申请公开了一种说话头视频合成方法、说话头视频合成装置、电子设备及存储介质。该方法包括：获取待合成的语音数据及观测数据，所述观测数据为除语音数据之外的通过观测所得的数据；对所述语音数据进行特征提取，得到所述语音数据所对应的语音特征，以及，对所述观测数据进行特征提取，得到所述观测数据所对应的非语音特征；对所述语音特征及第一非语音特征进行时序建模，得到低维表征，其中，所述第一非语音特征为：对时序变化敏感的非语音特征；基于所述低维表征及第二非语音特征进行视频合成，得到说话头视频，其中，所述第二非语音特征为：对时序变化不敏感的非语音特征。通过本申请方案，可以降低说话头视频合成时的复杂度，减少合成耗时。
话头视频合成方法装置电子设备存储介质

[发明专利]音视频处理方法、合成方法、装置、电子设备及存储介质-CN201910713206.1有效
发明人：王胜 -专利权人：腾讯科技（深圳）有限公司
申请日： 2019-08-02 - 公布日： 2023-10-20 - 主分类号： G10L25/57 文献下载
摘要：本发明公开了一种音视频处理方法、合成方法、装置、电子设备及存储介质，所述音视频处理方法包括：获取待处理音频数据，所述待处理音频数据是麦克风对扬声器输出的携带有第一特定音频数据的源音频数据进行采集生成的；确定所述待处理音频数据中第二特定音频数据的位置，所述第二特定音频数据为携带背景噪声的第一特定音频数据；基于所述第二特定音频数据在所述待处理音频数据中的位置，从所述待处理音频数据中将所述第二特定音频数据和延迟音频数据移除，得到目标音频。采用本发明所提供的音视频处理方法、合成方法、装置、电子设备及存储介质解决了现有技术中短视频多段录制过程中音视频合成时的背景音乐不连续的问题。
视频处理方法合成装置电子设备存储介质

[发明专利]基于语音数据的推荐信息确定方法及相关装置-CN202310949116.9在审
发明人：王一 -专利权人：深圳市人马互动科技有限公司
申请日： 2023-07-28 - 公布日： 2023-10-13 - 主分类号： G10L25/57 文献下载
摘要：本申请提供了一种基于语音数据的推荐信息确定方法及相关装置，包括：获取推荐请求；获取所述用户针对参考历史推荐信息的参考语音互动数据；根据所述参考语音互动数据确定所述用户针对每个参考历史推荐信息的实际互动时长；确定所述实际互动时长大于第一预设时长的参考历史推荐信息为目标历史推荐信息；根据所述目标语音互动数据确定所述用户针对每个目标历史推荐信息的互动连续性；根据所述互动连续性从所述目标历史推荐信息中确定可用历史推荐信息；获取所述用户的基本信息；根据所述可用历史推荐信息、所述可用语音互动数据和所述基本信息确定目标推荐标签；根据所述目标推荐标签确定目标推荐信息。可以提高推荐信息的确定的准确度。
基于语音数据推荐信息确定方法相关装置

[发明专利]一种音频处理方法、装置及计算机设备、存储介质-CN202310824711.X有效
发明人：李廷天;肖鑫雨 -专利权人：腾讯科技（深圳）有限公司
申请日： 2023-07-06 - 公布日： 2023-09-15 - 主分类号： G10L25/57 文献下载
摘要：本申请实施例提供一种音频处理方法、装置及计算机设备、存储介质。该音频处理方法涉及人工智能技术领域的音频处理技术，该音频处理方法包括：获取待处理的音频；对音频的每个音频片段进行特征分析，得到每个音频片段的特征信息；基于音频中的各个音频片段的特征信息，对每个音频片段进行拼接预测，得到每个音频片段的拼接预测结果；拼接预测结果用于指示相应音频片段中音频拼接点的包含情况；每个音频片段的拼接预测结果是基于每个音频片段的特征信息与其前序音频片段的特征信息进行拼接预测得到的；根据音频中的各个音频片段的拼接预测结果，对音频进行音频业务处理。采用本申请实施例，可以较为准确地对音频进行音频拼接点预测。
一种音频处理方法装置计算机设备存储介质

[发明专利]噪声提取方法、装置、设备及可读存储介质-CN202310909882.2在审
发明人：潘青华;丁杰;汪锦想;于振华;胡国平;刘聪;魏思;王士进;刘权 -专利权人：科大讯飞股份有限公司
申请日： 2023-07-24 - 公布日： 2023-08-22 - 主分类号： G10L25/57 文献下载
摘要：本申请公开了一种噪声提取方法、装置、设备及可读存储介质，在获取待进行噪声提取的视频；先确定视频中的各个有效音频片段以及与有效音频片段对应的子视频片段；再针对每个有效音频片段，基于有效音频片段对应的子视频片段的字幕信息，从有效音频片段中提取噪声。在本方案中，考虑到实际应用场景下的有效音频片段中往往包含噪声，在确定有效音频片段之后，进一步利用有效片段对应的子视频片段的字幕信息，确定有效音频片段中是否有噪声，进而实现对有效音频片段中的噪声的提取，因此，能够提升噪声的提取效果。
噪声提取方法装置设备可读存储介质

[发明专利]一种基于VC模型的嘴部动作驱动模型训练方法及组件-CN202110424539.X有效
发明人：陈泷翔;刘炫鹏;王鑫宇;刘云峰 -专利权人：深圳追一科技有限公司
申请日： 2021-04-20 - 公布日： 2023-08-04 - 主分类号： G10L25/57 文献下载
摘要：本申请公开了一种基于VC模型的嘴部动作驱动模型训练方法及组件。本申请使用VC模型调整训练数据的音色参数/语种参数，从而得到特定音色/语种的目标特征，之后以该目标特征作为模型训练数据，从而可训练得到支持特定音色/语种的得到嘴部动作驱动模型，可以降低训练数据的复杂性，减少训练数据量和训练成本，同时还不会影响嘴部动作驱动模型的通用性。相应地，本申请提供的一种基于VC模型的嘴部动作驱动模型训练组件，也同样具有上述技术效果。
一种基于 vc 模型动作驱动训练方法组件

[发明专利]基于视频交互的认证方法、系统以及相关装置-CN202211604782.0在审
发明人：吴为;蔡翱;王和潭 -专利权人：科大讯飞股份有限公司;讯飞华中（武汉）有限公司
申请日： 2022-12-13 - 公布日： 2023-08-01 - 主分类号： G10L25/57 文献下载
摘要：本申请公开了一种基于视频交互的认证方法、系统以及相关装置，该方法包括：获取第一方和第二方交互时产生的初始视频流，确定所述初始视频流中的开始朗读标识和终止朗读标识；其中，所述开始朗读标识与第一客户端上触发的开始朗读协议文本的时刻对应，所述终止朗读标识与所述第一客户端上触发的终止朗读所述协议文本的时刻对应，所述第一客户端与所述第一方对应；基于所述开始朗读标识和所述终止朗读标识，从所述初始视频流中获得所述第一方的第一音频信息，并基于所述第一音频信息获得第一识别文本；基于所述第一识别文本和所述协议文本，判断是否完成认证。通过上述方式，本申请能够提高视频交互过程中认证的效率。
基于视频交互认证方法系统以及相关装置

[发明专利]音口同步识别方法、音口同步识别网络的训练方法及装置-CN202310447732.4在审
发明人：王镜茹 -专利权人：京东方科技集团股份有限公司;北京京东方技术开发有限公司
申请日： 2023-04-24 - 公布日： 2023-07-04 - 主分类号： G10L25/57 文献下载
摘要：本发明提供一种音口同步识别方法、音口同步识别网络的训练方法及装置，该音口同步识别方法包括：获取待识别视频的第一音频信号，第一音频信号的时长为第一时长；获取待识别视频中的与第一音频信号对应的N帧视频帧，N根据第一时长和待识别视频的帧率确定；获取N帧视频帧中的唇部关键点信息；将第一音频信号输入到音口同步识别网络的音频编码器中进行编码处理得到音频特征向量；将唇部关键点信息输入到音口同步识别网络的图像编码器中进行编码处理得到图像特征向量；采用音口同步识别网络的损失函数确定音频特征向量和图像特征向量之间的距离，根据距离确定音口是否同步。本发明能够对不同帧率的视频进行音口同步识别。
同步识别方法网络训练装置

[发明专利]声音检测方法及相关设备-CN202310000609.8有效
发明人：顾海军;赵刚强;金伟;应红力 -专利权人：杭州觅睿科技股份有限公司
申请日： 2023-01-03 - 公布日： 2023-06-20 - 主分类号： G10L25/57 文献下载
摘要：本申请公开了一种声音检测方法、装置、电子设备及计算机可读存储介质，方法包括：获取关于目标对象的音视频数据，在所述音视频数据中提取获得音频数据和图像数据；分别对所述音频数据和所述图像数据进行特征提取，获得音频特征和图像特征；将所述音频特征和所述图像特征输入至声源定位模型进行处理；当所述声源定位模型输出关于所述目标对象的声源定位图时，利用多模态特征融合模型对所述声源定位图和所述音频特征进行识别，确定所述音视频数据中是否存在所述目标对象的目标音频。应用本申请提供的技术方案，可以有效减少漏检、误检问题，提高声音检测结果的准确性。
声音检测方法相关设备

[发明专利]视频处理方法、装置及计算机可读存储介质-CN202111214979.9在审
发明人：陈川涛;刘洋;崔晓宇 -专利权人：中移（杭州）信息技术有限公司;中国移动通信集团有限公司
申请日： 2021-10-19 - 公布日： 2023-04-25 - 主分类号： G10L25/57 文献下载
摘要：本申请实施例提供一种视频处理方法、装置及计算机可读存储介质，其中，方法包括：对待处理视频进行图像识别，得到所述待处理视频中的目标对象的图像识别结果；对所述待处理视频进行音频信息提取，得到待处理音频；根据所述图像识别结果，对所述待处理音频进行特征信息提取，得到音频特征；通过所述音频特征，对所述待处理音频进行降噪处理，得到降噪后的音频；将所述降噪后的音频融合至所述待处理视频中，得到处理后的视频。
视频处理方法装置计算机可读存储介质

[发明专利]一种音视频处理方法、装置、设备及介质-CN202211511151.4在审
发明人：豆红雷 -专利权人：杭州华橙软件技术有限公司
申请日： 2022-11-29 - 公布日： 2023-04-04 - 主分类号： G10L25/57 文献下载
摘要：本申请提供一种音视频处理方法、装置、设备及介质，用于提高音视频播放的智能性，提高用户体验。该方法包括：第一设备获取摄像机采集的第一音视频数据；第一设备从第一音频数据中提取至少一个第一声音特征，从第一视频数据中提取至少一个第一人物特征；第一设备根据声音特征和人物特征的映射信息，确定至少一个第一声音特征与至少一个第一人物特征的对应关系；第一设备根据至少一个第一声音特征与至少一个第一人物特征的对应关系处理第一音视频数据，得到第二音视频数据；第一设备向第二设备发送第二音视频数据；第二设备播放第二音视频数据，在播放到人声时，视频画面中对应至少一个人物的图像区域上显示有标记信息。
一种视频处理方法装置设备介质

[发明专利]语音处理方法和模型训练方法及电子设备-CN202111148233.2在审
发明人：范泛;罗敬昊 -专利权人：华为技术有限公司
申请日： 2021-09-29 - 公布日： 2023-03-31 - 主分类号： G10L25/57 文献下载
摘要：本申请实施例提供了一种语音处理方法和模型训练方法及电子设备。该语音处理方法包括：当确定视频画面发生变焦时，获取变焦参数、所述视频的第一视频语音数据和画面变焦后的视频画面数据；然后通过对所述变焦后的视频画面数据和所述第一视频语音数据进行多模态融合处理，以得到第二视频语音数据；接着，基于所述变焦参数对所述第二视频语音数据进行变焦，得到第三视频语音数据，输出所述第三视频语音数据。这样，通过多模态融合处理，有效的抑制视频语音数据中的噪声和混响，进而仅对抑制噪声和混响后的视频语音数据进行变焦，能够提高变焦后的视频语音数据的质量，以及提高用户体验。
语音处理方法模型训练电子设备

[发明专利]基于视频彩铃识别客户的方法、系统、装置及存储介质-CN202111570117.X有效
发明人：魏颖鹏 -专利权人：天翼爱音乐文化科技有限公司
申请日： 2021-12-21 - 公布日： 2023-03-14 - 主分类号： G10L25/57 文献下载
摘要：本申请公开了一种基于视频彩铃识别客户的方法、系统、装置及存储介质。该方法通过获取视频彩铃信息并将其输入UNet神经网络模块，得到视频语音信息，并对其进行语音识别处理，得到视频语音文本信息；获取关键帧图像信息并对其进行处理，得到关键帧文字信息和关键帧标题信息；将视频语音文本信息、关键帧文字信息和关键帧标题信息输入标签动态调整模块，得到识别的客户信息。该系统包括第一获取模块、第一处理模块、第二处理模块、第二获取模块、第三处理模块、第四处理模块和第五处理模块。上述方法能够通过视频彩铃识别客户，有利于降低人力成本，有利于提升识别效率，同时，有利于缓解客户敏感信息泄露的风险。本申请可应用于人工智能技术领域。
基于视频识别客户方法系统装置存储介质

[发明专利]基于语音的动作生成方法、装置、电子设备及存储介质-CN202211435101.2在审
发明人：何山;周良;殷兵;刘聪;戴礼荣 -专利权人：科大讯飞股份有限公司
申请日： 2022-11-16 - 公布日： 2023-03-07 - 主分类号： G10L25/57 文献下载
摘要：本申请提出一种基于语音的动作生成方法、装置、电子设备及存储介质，该方法包括：确定目标语音中包含的动作意图，并确定与所述动作意图相匹配的第一动作序列；以及，从所述目标语音中提取得到语音韵律特征，并基于所述语音韵律特征预测得到与所述语音韵律特征相匹配的第二动作序列；对所述第一动作序列和所述第二动作序列进行融合处理，生成与所述目标语音相匹配的动作序列。上述方案通过多维度的信息生成了与目标语音相匹配的动作序列，从而使得生成的与目标语音相匹配的动作序列更准确，并且更加自然、协调。
基于语音动作生成方法装置电子设备存储介质

1
2
3
4
下一页»
尾页
共 50 条