“视听语音”专利关键词查询_检索下载_查询列表_检索列表_行业专利分布_钻瓜专利网

钻瓜专利网为您找到相关结果175191个，建议您升级VIP下载更多相关专利

[发明专利]一种视听播放装置及其播放方法-CN200410027593.7有效
发明人：黄光明;向锋;成晓华 -专利权人：深圳市朗科科技有限公司
申请日： 2004-06-08 - 公布日： 2005-12-14 - 主分类号： G10L15/08 文献下载
摘要：本发明公开了一种视听播放装置及其播放方法，所述的装置包括：操作输入单元、语音输入单元、模数变换器、存储器单元、语音识别处理单元、视听数据处理单元、视听数据存储单元、数模变换器以及视听数据输出单元，通过转换输入的语音指令成相应的操作指令，控制视听播放装置。本发明的识别语音指令的视听播放装置能够通过语音识别处理单元使用语音实现对视听播放装置的操作。通过语音指令替代原来的按键指令。用户只须对此装置发出语音指令，设备即能听明白用户的意思，并执行相应的操作，这样能够使视听播放装置更加小型化，便于携带。
一种视听播放装置及其方法

[发明专利]视听语音分离模型的训练方法、电子设备和存储介质-CN202211573033.6在审
发明人：钱彦旻;吴逸飞;李晨达 -专利权人：思必驰科技股份有限公司
申请日： 2022-12-08 - 公布日： 2023-06-23 - 主分类号： G10L21/0272 文献下载
摘要：本发明实施例提供一种视听语音分离模型的训练方法、电子设备和存储介质。该方法包括：将多个说话人的混合训练音频输入至视听语音分离模型，得到多个说话人的预测频谱图；确定预测频谱图的预测说话人视听特征以及混合训练音频的参考频谱图的参考说话人视听特征；基于预测说话人视听特征以及参考说话人视听特征确定的跨模态损失，通过交叉方向乘子法利用跨模态损失对视听语音分离模型进行混合精度量化条件的训练，得到轻量级的视听语音分离模型。本发明实施例基于交叉方向乘子法对模型进行量化调优训练出轻量级的视听语音分离模型，并且通过多模态模型能够充分利用不同模态对量化敏感度特性确保了轻量级的视听语音分离模型计算量与性能的平衡。
视听语音分离模型训练方法电子设备存储介质

[发明专利]一种基于卷积块注意机制的视听双模态语音识别方法-CN202011080817.6有效
发明人：王兴梅;赵一旭;孙卫琦 -专利权人：哈尔滨工程大学
申请日： 2020-10-11 - 公布日： 2022-10-14 - 主分类号： G10L15/02 文献下载
摘要：本发明提供一种基于卷积块注意机制的视听双模态语音识别方法，包括如下步骤：(1)对视听双模态信息数据集进行预处理；(2)提出构建CBAM‑AV‑LipNet模型；(3)完成基于卷积块注意机制的视听双模态语音识别任务，实现视听双模态语音识别任务。本发明利用提出构建的CBAM‑AV‑LipNet模型对测试集进行特征提取得到深层融合特征向量，对其进行CTC贪婪搜索解码，获得识别文本信息，完成视听双模态语音识别任务。本发明提出的基于卷积块注意机制的视听双模态语音识别方法较传统的语音识别方法和视觉语音识别模型LipNet具有良好的识别性能和收敛速度，同时具有一定的抗噪能力和有效性。
一种基于卷积注意机制视听双模语音识别方法

[发明专利]智能多媒体视听图像处理方法、系统及存储介质-CN202310659951.9在审
发明人：张正;骆真;蔡春明 -专利权人：深圳市艾姆诗电商股份有限公司
申请日： 2023-06-06 - 公布日： 2023-09-05 - 主分类号： H04L12/18 文献下载
摘要：本发明涉及多媒体信息处理的技术领域，特别是涉及一种智能多媒体视听图像处理方法、系统及存储介质，其能够提高会议总结效率；所述方法包括以下步骤：S1、获取与会人员的语音、人脸视频以及多媒体播放图像；S2、利用预先训练的会议视听分析模型识别与会人员的语音及人脸视频；S3、根据会议视听分析模型的识别结果，获取每个与会人员的语音时间节点；S4、根据语音时间节点，截取相同时间内语音对应的与会人员的人脸视频和多媒体播放图像；S5、将相同时间节点内的语音、人脸视频以及多媒体播放图像转换成同屏双显的单个视听文件；S6、根据会议视听分析模型的识别结果，为每位与会人员建立个人视听库，并存储属于该与会人员的多个视听文件。
智能多媒体视听图像处理方法系统存储介质

[发明专利]一种基于端到端的视听语音识别方法、装置、设备及介质-CN202310717625.9在审
发明人：凌天东;程宁;王健宗 -专利权人：平安科技（深圳）有限公司
申请日： 2023-06-15 - 公布日： 2023-08-15 - 主分类号： G10L15/16 文献下载
摘要：本发明涉及人工智能技术领域，尤其涉及一种基于端到端的视听语音识别方法、装置、设备及介质。上述方法应用于医疗领域，本发明中，通过端到端的模型实现视听语音识别，将卷积特征与编码特征相结合，提取图像序列信息与音频信息中的特征，提高特征提取的准确率，将图像序列信息与音频信息中的特征融合后，进行视听语音识别，该视听语音识别方法可以更好地利用和适应新的硬件并行计算能力，提高运算速率，因此，该视听语音识别方法可以提高语音识别的性能。
一种基于端到端视听语音识别方法装置设备介质

[发明专利]通话方法、发送装置、接收装置、语音处理和终端设备-CN201210345722.1在审
发明人：严小平 -专利权人：联想（北京）有限公司
申请日： 2012-09-17 - 公布日： 2014-03-26 - 主分类号： H04N5/278 文献下载
摘要：本发明实施例提供了一种用于通话的方法、发送装置、接收装置、终端设备和语音处理设备。所述用于通话的方法包括：在发送端采集视听数据，所述视听数据包括语音数据；对所述语音数据进行语音识别并基于所识别的语音获得字幕数据；在接收端中获得所述视听数据和字幕数据；在接收端中同步地执行所述视听数据的播放和所述字幕数据的显示在本发明的实施例中，能够在提供通话的语音的同时提供与该语音对应的字幕，从而即使通信环境恶化无法听清通话语音也保证通话信息不被错失。
通话方法发送装置接收语音处理终端设备

[发明专利]一种多功能辅助视听的方法及系统-CN202010592121.5在审
发明人：张龙杰;孙涛;王诚成;邓博渊;刘玄冰;赵祖星;刘厚君;林衍;刘子谦;李浩杰 -专利权人：中国人民解放军海军航空大学
申请日： 2020-06-24 - 公布日： 2020-10-13 - 主分类号： G10L15/26 文献下载
摘要：本发明公开了一种多功能辅助视听的方法，包括以下步骤：获取至少三个视听采集系统中的语音采集模块采集的第一语音信号，获取至少三个视听采集系统的视频采集模块采集的视频信号；获取视听AR系统中的语音采集模块采集的第二语音信号；分析所述第一语音信号和所述第二语音信号，对比第一语音信号高频成分占比与预设阈值，得到分析结果；根据所述分析结果，处理所述第一语音信号和所述第二语音信号，得到处理结果；控制视听AR系统中的AR显示模块显示处理结果本发明通过声源定位和语音文字转化技术将语音采集模块采集到的语音信号进行处理并显示处理结果，解决了听力障碍人士无法听到视野盲区的危险警示或者无法与人交谈的问题。
一种多功能辅助视听方法系统

[发明专利]基于视听多模态融合的土家语语音识别方法-CN202310763651.5在审
发明人：于重重;徐小龙;钱兆鹏;于佳圻 -专利权人：北京工商大学
申请日： 2023-06-27 - 公布日： 2023-09-05 - 主分类号： G10L15/00 文献下载
摘要：本发明公布了一种基于视听多模态融合的土家语语音识别方法，构建结合注意力机制与动态梯度下降DGM策略的基于视听多模态融合的土家语语音识别模型，对语音进行识别；在模型训练时使用视频数据对音频数据进行增强；构建的模型包括：特征提取模块、视听融合模块、动态梯度下降模块、土家语识别模块；视听融合模块是基于多头注意力机制，完成视频特征和音频特征的数据融合；动态梯度下降模块用于调控各模态的优化速度，结合视听融合模块完成模型的训练；使用链接时序分类CTC方法实现待识别语音的识别。本发明能够提高土家语语音识别的准确率。
基于视听多模态融合土家语音识别方法

[发明专利]一种基于视听融合的管制员语音识别方法及装置-CN202310090186.3有效
发明人：林毅;郭东岳 -专利权人：四川大学
申请日： 2023-02-09 - 公布日： 2023-04-25 - 主分类号： G10L15/06 文献下载
摘要：本发明公开了一种基于视听融合的管制员语音识别方法及装置，包括以下步骤：步骤1：采集管制员视听数据，对视听数据进行预处理构建视听数据集；步骤2：构建语音表示模型并进行预训练；步骤3：构建视频表示模型并进行预训练；视频表示模型包括帧内表示模型和帧间表示模型；步骤4：根据步骤2和步骤3得到的模型构建语音‑视频联合自编码器，并进行预训练；步骤5：构建语音识别模块，语音识别模块和语音‑视频联合自编码器构成基于双模态融合的空管语音识别网络，并对基于双模态融合的空管语音识别网络进行监督训练。本发明为语音识别任务提供具有丰富语义的补充信息，提升了管制员语音识别的准确率。
一种基于视听融合管制语音识别方法装置

[发明专利]视听语音识别方法、装置、设备、介质及产品-CN202211519550.5在审
发明人：郭加伟 -专利权人：中国农业银行股份有限公司
申请日： 2022-11-30 - 公布日： 2023-03-31 - 主分类号： G10L15/02 文献下载
摘要：本申请提供一种视听语音识别方法、装置、设备、介质及产品，该方法包括：获取待识别的视频特征和对应的含噪语谱图；所述视频特征为基于用户的唇部图像提取的特征；所述含噪语谱图为基于用户的音频数据提取生成的；将所述视频特征和所述含噪语谱图输入预设视听语音增强模型进行降噪处理，输出对应的增强语谱图；将所述增强语谱图和所述视频特征输入预设视听语音识别模型进行语音识别，输出对应的最终字符序列。本申请的视听语音识别方法，通过预设视听语音识别模型对增强语谱图和视频特征两种模态进行识别，以两种模态互补的方式，提高最终字符序列的准确性，从而提高了语音识别的准确性。
视听语音识别方法装置设备介质产品

[发明专利]一种低侵入性的视听语音分离方法及系统-CN202211005193.0在审
发明人：王坤朋;李文娜;姚娟;刘忠仁;周浩;张江梅;冯兴华;张春峰 -专利权人：西南科技大学
申请日： 2022-08-22 - 公布日： 2022-11-22 - 主分类号： G10L21/0272 文献下载
摘要：本发明公开了一种低侵入性的视听语音分离方法及系统，该方法包括以下步骤：获取视频中不同目标对象的人脸图像之间不具备隐私侵入性的分辨率；基于不具备隐私侵入性的分辨率，选取多种分辨率的音视频训练数据集并预处理；构建低侵入性视听语音分离模型；利用预处理后的数据训练视听语音分离模型；将待分离的视听语音输入已训练好的视听语音分离模型中，分离出各目标对象的语音。本发明构建了一种新的视觉模态模型，将视觉特征的提取分为双支路结构，该结构同时融合了说话人的动态特征与语义特征，可在人脸图像分辨率不具备隐私侵入性的情况下有效关注可辅助语音分离的唇部动态特征，这使系统既能达到语音分离的目的又可以保护使用者的隐私信息
一种侵入视听语音分离方法系统

[发明专利]一种心肺复苏反馈手套-CN202110556820.9在审
发明人：唐丽雯;王旭 -专利权人：久心医疗科技（苏州）有限公司
申请日： 2021-05-21 - 公布日： 2021-08-27 - 主分类号： A61H31/00 文献下载
摘要：本发明公开了一种心肺复苏反馈手套，包括心肺复苏反馈手套本体、测量单元、视听单元、控制单元；测量单元通过传感器获取按压频率、按压深度数据，传送给控制单元；控制单元进行数据分析得到判断结果，传送给视听单元；视听单元给出操作者具体的操作提示。视听单元包括频率反馈指示灯，深度反馈指示灯，侧边语音口。进行心肺复苏的同时，提供视觉、语音实时反馈。若操作者按压频率、按压深度正确，则给予操作者正向的反馈，否则，通过灯光和/或语音提示操作者及时做出调整，实施正确的心肺复苏。本发明结构简单，易于携带，安全性高，方便使用；配有视听双重反馈，指导精准按压，方便操作者准确及时救治；与手部直接接触，按压时不易发生移位。
一种复苏反馈手套

[发明专利]一种基于视听语音分离的说话人视觉激活解释方法及系统-CN202310187677.X在审
发明人：胡致远;沈旭立 -专利权人：华院计算技术（上海）股份有限公司
申请日： 2023-03-01 - 公布日： 2023-08-11 - 主分类号： G10L21/028 文献下载
摘要：本发明公开了一种基于视听语音分离的说话人视觉激活解释方法及系统，方法包括：由说话人视频片段抽取说话人音频片段，与噪声音频片段混合得到混合语音片段；基于残差神经网络提取唇部运动特征和面部特征，基于U‑net进行音频特征提取，并对齐构成多模态深度特征；确定视听语音分离模型的模型组件和损失函数并完成训练；解码视频流信息并输入部署的视听语音分离模型，并根据输出的预测频谱图计算得分函数，根据得分函数计算视觉模态不同层的贡献度通过本发明的技术方案，创新性地提出了适用于视听语音分离特殊输出的可视化解释方法，得到了超过目前最先进水平的分离效果，能够在更复杂条件下稳定工作。
一种基于视听语音分离说话视觉激活解释方法系统

[发明专利]用于产生视听节目内容的视听概要的系统和方法-CN200480014371.X无效
发明人： M·巴比伊里;G·E·梅肯坎普 -专利权人：皇家飞利浦电子股份有限公司
申请日： 2004-05-17 - 公布日： 2006-06-28 - 主分类号： G11B27/28 文献下载
摘要：本发明描述了一种用于产生视听节目内容(3)的视听概要的系统(1)。所述系统包括搜索部件(4)，用于定位与节目内容(3)相关联的所预先产生的文本概要(5_i)；语言合成器(6)，用于把所述文本概要(5_i)转换为语音(7)；视频概要产生器(8)，用于产生视听节目内容(3)的视频概要(9)，和音频/视频混合器(10)，用于把所合成的语音(7)与视频概要(9)相混合。此外，本发明描述了一种用于产生视听节目内容(3)的视听概要(5_i)的适当方法。
用于产生视听节目内容概要系统方法

[实用新型]一种室内视听监控系统-CN202120598278.9有效
发明人：李强;乔文霞;田海洋 -专利权人：北方民族大学
申请日： 2021-03-24 - 公布日： 2021-10-22 - 主分类号： H04N7/18 文献下载
摘要：本实用新型公开了一种室内视听监控系统，包括视听信息采集装置、视听处理模块、显示装置和语音指令模块。在对室内环境进行视频监控的同时，可以在监控盲区死角或遮挡区域，通过声音事件辅助监控，实现室内的视听监控，保证全面监控安全。
一种室内视听监控系统

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
下一页»
尾页
共 100000 条