“殷兵”申请（专利权）人搜索_中国专利权人_发明人_技术持有人_科研专家_钻瓜专利网

钻瓜专利网为您找到相关结果185个，建议您升级VIP下载更多相关专利

[发明专利]文本识别方法及相关装置、设备和存储介质-CN202310692381.3在审
发明人：胡金水;刘辰宇;晏黔东;朱旭阳;吴嘉嘉;殷兵;殷保才;刘聪 -专利权人：科大讯飞股份有限公司
申请日： 2023-06-09 - 公布日： 2023-10-24 - 主分类号： G06V30/19 文献下载
摘要：本申请公开了一种文本识别方法及相关装置、设备和存储介质，其中，文本识别方法包括：提取待识别图像的图像特征；基于图像特征执行如下第一解码操作：基于上一解码时刻的解码信息，从图像特征提取得到当前解码时刻的第一视觉特征；并基于当前解码时刻的第一视觉特征及上一解码时刻的解码信息，得到当前解码时刻的语言特征；及基于第一视觉特征和语言特征进行解码，得到当前解码时刻的解码字符；其中，解码信息包括解码字符、解码状态中至少一者，组合各个解码时刻的解码字符得到第一解码操作的候选识别文本；基于若干种解码操作各自的候选识别文本，得到待识别图像的目标识别文本。上述方案，能够提升文本识别的准确性，特别是在OOV上的准确性。
文本识别方法相关装置设备存储介质

[发明专利]图像处理方法、装置、设备及存储介质-CN202310798362.9在审
发明人：程虎;殷兵;殷保才;林垠;刘文超 -专利权人：科大讯飞股份有限公司
申请日： 2023-06-29 - 公布日： 2023-10-13 - 主分类号： G06V10/75 文献下载
摘要：本申请提供了图像处理方法、装置、设备及存储介质，具体实现方案为：获取第一图像中的各个图形元素的属性信息，所述各个图形元素构成所述第一图像中的第一图形对象，根据所述第一图像中的各个图形元素的属性信息，确定所述第一图形对象的图结构信息，以及，获取第二图像中的第二图形对象的图结构信息；至少根据所述第一图形对象的图结构信息，以及所述第二图形对象的图结构信息，从所述第二图形对象中确定出与所述第一图形对象匹配的图形区域。根据本申请的技术方案，能够有效提升拼图图像匹配的准确性。
图像处理方法装置设备存储介质

[发明专利]基于语音的三维人脸模型驱动方法及相关装置-CN202310472056.6有效
发明人：杨硕;何山;殷兵;刘聪;周良;胡金水 -专利权人：科大讯飞股份有限公司
申请日： 2023-04-27 - 公布日： 2023-10-13 - 主分类号： G06T13/40 文献下载
摘要：本申请提出一种基于语音的三维人脸模型驱动方法及相关装置，基于目标语音的语音特征和目标情绪特征，按照偏移预测参数，进行三维模型顶点偏移预测，按照预测得到的三维模型顶点偏移数据，驱动三维基础模型，得到目标语音对应的三维人脸动画。偏移预测参数是通过样本视频对应的4D合成数据、音频特征和情绪特征，进行三维模型顶点偏移预测处理而确定的；4D合成数据是将样本视频的每帧图像对应的三维重建人脸模型，按照样本视频的帧率合成的数据。本方案将样本视频的每帧图像重建为三维人脸模型得到的4D合成数据作为确定偏移预测参数的样本数据，提高了样本数据的数据量和情绪多样性，从而提高了语音驱动三维人脸模型的准确度和情绪化效果。
基于语音三维模型驱动方法相关装置

[发明专利]文图生成方法、装置、设备及存储介质-CN202310865239.4在审
发明人：殷保才;何山;殷兵;刘聪 -专利权人：科大讯飞股份有限公司
申请日： 2023-07-13 - 公布日： 2023-10-10 - 主分类号： G06T11/60 文献下载
摘要：本申请公开了一种文图生成方法、装置、设备及存储介质，本申请借助大语言模型的语言能力，令大语言模型执行对原始文本描述内容进行加工处理的任务，该任务为使得大语言模型所得到的编辑后文本描述内容相对于原始文本描述内容的丰富度更高的任务，获取大语言模型输出层所提取的文本表征，该文本表征可以作为大语言模型输出的编辑后文本描述内容对应的特征表示，由于编辑后文本描述内容相对于原始文本描述内容的信息丰富度更高，因此获取的输出层所提取的文本表征相对于传统对原始文本描述内容的编码特征，其特征表达能力更强，将该文本表征送入预配置的文图生成模型，得到模型生成图像，该生成图像与文本内容更加匹配，也即图像效果更佳。
生成方法装置设备存储介质

[发明专利]一种人脸建模方法、装置、电子设备及存储介质-CN202310431115.5有效
发明人：杨硕;何昊南;何山;殷兵;刘聪;周良;胡金水 -专利权人：科大讯飞股份有限公司
申请日： 2023-04-21 - 公布日： 2023-09-26 - 主分类号： G06T17/00 文献下载
摘要：本申请提供一种人脸建模方法、装置、电子设备及存储介质，所述人脸建模方法，包括：获得包含目标人脸的影像数据；利用预先训练的面部参数处理模型，对所述影像数据中的目标人脸进行参数化建模，得到所述目标人脸的面部参数；其中，所述面部参数处理模型至少基于样本影音数据中的人脸影像数据，以及与所述人脸影像数据对应的语音数据进行人脸参数建模训练得到。该方法通过样本影音数据中的人脸影像数据，以及与所述人脸影像数据对应的语音数据进行人脸参数建模，训练能够基于包含目标人脸的影像数据，获得目标人脸的面部参数的面部参数处理模型，使得所述面部参数处理模型能够学习到二维图像中缺失的、而在语音空间中存在的信息。
一种建模方法装置电子设备存储介质

[发明专利]一种情绪识别方法、装置、存储介质及设备-CN202310651309.6在审
发明人：殷兵;李晋;高天;方昕;刘俊华 -专利权人：科大讯飞股份有限公司
申请日： 2023-06-01 - 公布日： 2023-09-01 - 主分类号： G06V40/16 文献下载
摘要：本申请公开了一种情绪识别方法、装置、存储介质及设备，该方法包括：首先获取待识别的目标视频，并从中分离出音频信号流和图像信号流，然后将音频信号流和图像信号流分别输入预先构建的情绪识别模型，预测得到目标视频中目标用户对应的第一初步情绪识别结果和第二初步情绪识别结果；其中，情绪识别模型是在利用样本音频信号流和样本图像信号流进行交替训练后，再通过梯度融合的参数更新方式训练得到的；接着根据第一初步情绪识别结果和第二初步情绪识别结果，确定目标用户的最终情绪识别结果。由于本申请是先利用模态相关的训练方法和梯度融合的参数更新方式构建了情绪识别模型，从而在利用该模型进行情绪识别时，能够提高识别结果的准确率。
一种情绪识别方法装置存储介质设备

[发明专利]伪标签生成方法、模型训练方法、目标检测方法和设备-CN202310654313.8在审
发明人：盛典;林垠;殷兵 -专利权人：科大讯飞股份有限公司
申请日： 2023-06-02 - 公布日： 2023-08-29 - 主分类号： G06V10/774 文献下载
摘要：本发明提供了一种伪标签生成方法、模型训练方法、目标检测方法和设备，方法包括：采用已标注的第一训练图像对构建的目标检测模型进行训练，得到第一目标检测模型，利用第一目标检测模型获取第一训练图像中已标注目标对应的目标特征，利用第一目标检测模型并辅以已标注目标对应的目标特征，生成未标注的第二训练图像的伪标签，在此基础上，采用已标注的训练图像和具有伪标签的训练图像训练得到最终的目标检测模型，进而，利用训练得到的目标检测模型对待检测图像进行目标检测。本发明针对未标注的训练图像可生成准确的伪标签，在此基础上可训练得到性能较佳的目标检测模型，进而，利用该模型对待检测图像进行目标检测，可获得较好的检测效果。
标签生成方法模型训练目标检测设备

[发明专利]手写表格识别方法及相关装置-CN202310234564.0在审
发明人：朱旭阳;刘辰宇;吴嘉嘉;胡金水;殷兵 -专利权人：科大讯飞股份有限公司
申请日： 2023-03-07 - 公布日： 2023-08-29 - 主分类号： G06V30/412 文献下载
摘要：本申请提出一种手写表格识别方法及相关装置，该方法包括：对手写表格图像中的表格进行矫正处理，得到矫正表格图像；确定所述矫正表格图像中的各个单元格的位置，以及，识别所述矫正表格图像中的各个文本行以及各个文本行的位置；基于所述矫正表格图像中的各个单元格的位置、所述矫正表格图像中的各个文本行以及各个文本行的位置，生成电子表格。采用上述方案可以有效地将手写表格转换为电子表格。
手写表格识别方法相关装置

[发明专利]一种情感识别方法、装置、存储介质及设备-CN202310651876.1在审
发明人：殷兵;奚昌凤;殷保才 -专利权人：科大讯飞股份有限公司
申请日： 2023-06-01 - 公布日： 2023-08-18 - 主分类号： G06V40/70 文献下载
摘要：本申请公开了一种情感识别方法、装置、存储介质及设备，该方法包括：首先获取待识别的目标视频，其中，目标视频为缺少目标模态信号的视频，然后提取目标视频中非目标模态信号的信号特征，并对该非目标模态信号的信号特征进行解码，生成目标模态信号；接着，提取目标模态信号的信号特征，并利用该目标模态信号或非目标模态信号，生成目标视频对应的文本特征；进而可以根据目标模态信号的信号特征、非目标模态信号的信号特征以及文本特征，对目标视频中的目标用户进行情感识别，得到目标用户对应的情感识别结果。可见，由于本申请的识别依据更加准确，从而能够进一步提高最终情感识别结果的准确率。
一种情感识别方法装置存储介质设备

[发明专利]一种图像检测方法、装置、设备及存储介质-CN202310432308.2在审
发明人：吴嘉嘉;张银田;殷兵;胡金水;刘聪 -专利权人：科大讯飞股份有限公司
申请日： 2023-04-18 - 公布日： 2023-08-18 - 主分类号： G06V20/60 文献下载
摘要：本申请提供了一种图像检测方法、装置、设备及存储介质，具体实现方案为：获取特定场景下的待检测图像；基于预设的图像检测模型对所述待检测图像进行检测，得到所述待检测图像中的异物；其中，所述异物用于表示与所述待检测图像中的目标物体所不同的物体；所述图像检测模型是由在所述特定场景下基于不同种类的异物所生成的合成图像训练数据进行图像异物检测训练得到的。根据本申请的技术方案，能够有效提升异物检测的准确率。
一种图像检测方法装置设备存储介质

[发明专利]图像生成方法、装置、电子设备和计算机可读存储介质-CN202310856919.X在审
发明人：疏坤;何山;殷兵;胡金水;刘聪 -专利权人：科大讯飞股份有限公司
申请日： 2023-07-13 - 公布日： 2023-08-11 - 主分类号： G06T11/20 文献下载
摘要：本申请公开了一种图像生成方法、装置、电子设备和计算机可读存储介质，该方法包括：获取第一生成图像；响应于针对第一生成图像对应的待调整区域的图像编辑指令，获取与待调整区域关联的参考图像或第一提示词，作为第一生成信息；基于第一生成信息生成调整图像；利用调整图像对待调整区域进行调整，得到第二生成图像，上述方案，能够提高图像生成效率。
图像生成方法装置电子设备计算机可读存储介质

[发明专利]知识问答方法、装置、设备及存储介质-CN202310506317.1在审
发明人：刘权;殷兵;殷保才;丁瑞;刘文超;胡国平;刘聪;高建清;魏思;王士进 -专利权人：科大讯飞股份有限公司
申请日： 2023-05-05 - 公布日： 2023-08-08 - 主分类号： G06F16/332 文献下载
摘要：本申请公开了一种知识问答方法、装置、设备及存储介质，方法包括：获取用户输入的图片及与图片相关的问题文本，获取图片的描述信息，并将描述信息作为问答知识提供给大语言模型，使得大语言模型能够理解图片中的图像内容，将其作为知识问答对话的上下文信息，在此基础上，将用户输入的问题文本作为提示指令输入给大语言模型，大语言模型能够基于前述理解的图片中的图像内容，对该问题文本进行理解及回复。本申请支持多模态的问题输入，用户可以基于图片进行知识问答，扩展了知识问答的应用场景。并且，按照本申请的方案可以使得大语言模型能够理解图片的图像内容，基于此能够更加准确的给出问题文本所匹配的答复内容。
知识问答方法装置设备存储介质

[发明专利]知识问答方法、装置、设备及存储介质-CN202310506333.0在审
发明人：殷兵;刘聪;高建清;殷保才;丁瑞;刘文超;胡国平;魏思;王士进;刘权 -专利权人：科大讯飞股份有限公司
申请日： 2023-05-05 - 公布日： 2023-08-08 - 主分类号： G06F16/332 文献下载
摘要：本申请公开了一种知识问答方法、装置、设备及存储介质，方法包括：获取用户输入的图片及与图片相关的问题文本，对识别图片中包含的文本信息，并将文本信息作为问答知识提供给大语言模型，使得大语言模型能够理解图片中包含的文本信息，将其作为知识问答对话的上下文信息，在此基础上，将用户输入的问题文本作为提示指令输入给大语言模型，大语言模型能够基于前述理解的图片中包含的文本信息，对该问题文本进行理解及回复。本申请支持多模态的问题输入，用户可以基于图片进行知识问答，扩展了知识问答的应用场景。并且，按照本申请的方案可以使得大语言模型能够理解图片中包含的文本信息，基于此能够更加准确的给出问题文本所匹配的答复内容。
知识问答方法装置设备存储介质

[发明专利]一种无线充放电测试系统及方法-CN202010908838.6有效
发明人：王占宾;胡醇;胡德霖;李杰;殷兵;钱明 -专利权人：苏州电器科学研究院股份有限公司
申请日： 2020-09-02 - 公布日： 2023-07-28 - 主分类号： G01R31/00 文献下载
摘要：本发明公开一种无线充放电测试系统及方法，该测试系统包括电源负载电路和采集监控电路，电源负载电路包括：外接市电、电源开关、充电开关、整流电路、振荡放大电路、放电开关、感应线圈、控制电路以及电子负载，外接市电、电源开关、充电开关、整流电路、振荡放大电路、感应线圈以及控制电路形成充电测试回路，放电开关、感应线圈、控制电路以及电子负载形成放电测试回路；采集监控电路用于实时采集待测设备电流、电压、储能电量中的一种或多种性能值。本发明可以有效准确的收集检测多种无线充放电设备无线充电和放电性能，通用性良好，操作方便，设备磨损率低，应用范围广。
一种无线放电测试系统方法

[发明专利]视频生成方法、装置、电子设备和存储介质-CN202310290547.9有效
发明人：雷新宇;何山;疏坤;周良;殷兵;刘聪 -专利权人：科大讯飞股份有限公司
申请日： 2023-03-23 - 公布日： 2023-07-25 - 主分类号： H04N21/44 文献下载
摘要：本发明涉及图像处理技术领域，提供一种视频生成方法、装置、电子设备和存储介质。方法包括：获取混合语音和多人画面，并对所述多人画面进行人脸检测，获得多个人脸图像，所述混合语音包括至少一人的语音；基于所述多个人脸图像的图像特征和所述混合语音的语音特征，生成多个目标人脸图像组，任一所述目标人脸图像组包括一个人在不同帧的目标人脸图像；将所述多个目标人脸图像组与所述多人画面进行融合，得到多帧目标多人同屏画面，并将所述多帧目标多人同屏画面与所述混合语音进行融合，得到多人会话视频。本发明无需对多个人的视频进行合成即可自动生成多人同屏的多人会话视频，从而节省人工成本，提高多人会话视频的制作效率。
视频生成方法装置电子设备存储介质

1
2
3
4
5
6
7
8
9
10
11
12
13
下一页»
尾页
共 185 条