“万根顺”申请（专利权）人搜索_中国专利权人_发明人_技术持有人_科研专家_钻瓜专利网

钻瓜专利网为您找到相关结果101个，建议您升级VIP下载更多相关专利

[发明专利]语音识别方法、装置、电子设备及存储介质-CN202310798449.6在审
发明人：佟欣欣;鲍晓;许丽;万根顺;熊世富;高建清;刘聪 -专利权人：科大讯飞股份有限公司
申请日： 2023-06-29 - 公布日： 2023-10-27 - 主分类号： G10L15/08 文献下载
摘要：本申请提出一种语音识别方法、装置、电子设备及存储介质，涉及语音识别技术领域。该语音识别方法可以包括：获取目标语音的第一类特征和第二类特征；其中，所述第一类特征为表征语音内容的声学特征，所述第二类特征为表征情绪的声学特征；根据所述第一类特征和所述第二类特征，确定对所述目标语音的语音识别结果，其中，所述语音识别结果中包括添加有标点符号的文本内容。本申请提供的技术方案能够提高语音识别中标点符号标记的准确性。
语音识别方法装置电子设备存储介质

[发明专利]一种语音识别方法、装置、设备及存储介质-CN202310641362.8在审
发明人：茆廷志;万根顺;王磊奇;张景宣;高建清;潘嘉;刘聪;胡国平 -专利权人：科大讯飞股份有限公司
申请日： 2023-05-31 - 公布日： 2023-09-29 - 主分类号： G10L15/22 文献下载
摘要：本发明提供了一种语音识别方法、装置、设备及存储介质，语音识别方法包括：获取指定领域的目标语音和目标视频，其中，目标语音为目标视频的视频画面内容的解说语音；从目标视频的视频画面中检测实体，得到第一目标实体；从指定领域的知识图谱中获取第一目标实体的知识信息；辅以第一目标实体的知识信息，对目标语音进行语音识别，得到目标语音的语音识别结果。本发明从解说语音的特点出发，提出从目标视频的视频画面中检测实体，并从知识图谱中获取检测出的实体的知识信息，进而辅以获得的实体知识信息对目标语音进行识别，在对目标语音进行识别时，辅以从目标视频的视频画面中检测出的实体的知识信息，能够获得较为准确的语音识别结果。
一种语音识别方法装置设备存储介质

[发明专利]一种语音识别方法、装置、设备及存储介质-CN202310641371.7在审
发明人：茆廷志;万根顺;邢秀萍;张景宣;高建清;潘嘉;刘聪;胡国平 -专利权人：科大讯飞股份有限公司
申请日： 2023-05-31 - 公布日： 2023-09-15 - 主分类号： G10L15/22 文献下载
摘要：本发明提供了一种语音识别方法、装置、设备及存储介质，语音识别方法包括：获取目标语音和目标视频，其中，目标语音为目标视频的视频内容的解说语音；对目标语音提取声学特征，得到目标语音的声学特征，并对目标视频提取含视频内容信息的视觉特征，得到目标视频的视觉特征；根据目标语音的声学特征并辅以目标视频的视觉特征，确定目标语音的语音识别结果。考虑到目标语音为目标视频的视频内容的解说语音，其与目标视频的视频内容具有一定的相关性，本发明对目标视频提取含视频内容信息的视觉特征，辅以视觉特征对解说语音进行语音识别，在对目标语音即解说语音进行语音识别时，辅以含视频内容信息的视觉特征，能够获得较为准确的语音识别结果。
一种语音识别方法装置设备存储介质

[发明专利]一种笔记总结生成方法、装置、设备及存储介质-CN202211675358.5在审
发明人：刘超凡;孔常青;万根顺;熊世富;高建清;潘嘉;刘聪 -专利权人：科大讯飞股份有限公司
申请日： 2022-12-26 - 公布日： 2023-08-22 - 主分类号： G06V30/14 文献下载
摘要：本发明提供了一种笔记总结生成方法、装置、设备及存储介质，方法包括：获取目标文本图片；从目标文本图片中分割出若干目标区域，并确定每个目标区域的类别，其中，若干目标区域包括若干文本区域，每个文本区域为原文本区域、用户书写区域、用户标记区域中的一种；对分割出的每个文本区域进行文本识别，得到若干文本区域分别对应的识别结果；以用户书写区域对应的识别结果和/或用户标记区域对应的识别结果为指导信息，结合原文本区域对应的识别结果，生成目标用户的笔记总结。本发明可根据文本图片自动生成用户的笔记总结，相比于人工的笔记整理方式，大大降低了耗时，提高了笔记整理的效率，同时避免人为因素带来的影响。
一种笔记总结生成方法装置设备存储介质

[发明专利]标点添加方法、服务器和客户端设备-CN202310445263.2在审
发明人：金泽群;许丽;万根顺;熊世富;高建清;潘嘉;刘聪 -专利权人：科大讯飞股份有限公司
申请日： 2023-04-21 - 公布日： 2023-08-22 - 主分类号： G06F40/166 文献下载
摘要：本发明提供一种标点添加方法、服务器和客户端设备，涉及自然语言处理技术领域，该方法包括：接收客户端设备发送的待添加标点的初始文本，并提取初始文本的文本特征；基于用户行为特征、文本特征和标点预测模型确定初始文本的标点预测结果；基于标点预测结果为初始文本添加标点，得到目标文本，并将目标文本发送给客户端设备；其中，用户行为特征用于表征用户的标点添加习惯；标点预测模型是基于不同用户的带标点样本文本和带标点样本文本对应的用户行为样本特征，对初始标点预测模型进行训练得到的。本发明提供的技术方案能够实现个性化的文本标点预测，得到与用户标点使用习惯相匹配的带标点文本，个性化程度高。
标点添加方法服务器客户端设备

[发明专利]语音识别方法、语音识别模型训练方法、设备和介质-CN202310460643.3在审
发明人：张文辉;万根顺;田定书;高建清;潘嘉;刘聪;胡国平 -专利权人：科大讯飞股份有限公司
申请日： 2023-04-25 - 公布日： 2023-08-18 - 主分类号： G10L15/06 文献下载
摘要：本申请公开了一种语音识别方法、语音识别模型训练方法、设备和介质，该方法包括：获取待识别语音并获取经训练的语音识别模型；语音识别模型包括编码网络和解码网络；在利用编码网络对待识别语音进行编码的各个阶段中，先在目标语音属性下分类得到待识别语音所属的预测属性类别，再基于目标语音属性下预测属性类别进行编码，得到第一编码特征；基于解码网络对第一编码特征进行解码，得到待识别语音的识别文本；其中，语音识别模型至少基于第一损失进行调整，第一损失表征在目标语音属性下，样本语音标注的预设属性类别与被语音识别模型进行识别所得到的样本属性类别之间的差异。通过上述方式，本申请能够在提升语音识别准确率的同时，减少成本。
语音识别方法模型训练设备介质

[发明专利]一种语音端点检测方法、装置、设备及存储介质-CN202310513866.1在审
发明人：陈洁茹;田定书;万根顺;张景宣;付中华;高建清;潘嘉;刘聪;胡国平 -专利权人：科大讯飞股份有限公司
申请日： 2023-05-08 - 公布日： 2023-08-11 - 主分类号： G10L25/87 文献下载
摘要：本发明提供了一种语音端点检测方法、装置、设备及存储介质，语音端点检测方法包括：获取目标数据，目标数据包括目标音频数据；将目标数据输入预先训练得到的音频帧分类模型，得到目标音频数据的音频帧的分类结果，其中，音频帧分类模型以带有若干噪声类别中的一个或多个类别的噪声的第一音频数据为训练样本，以第一音频数据的音频帧在多个维度下的真实类别为样本标签训练得到，多个维度包括语音维度和若干噪声类别分别对应的噪声维度；根据目标音频数据的音频帧的分类结果确定语音端点。本发明提供的语音端点检测方法能够检测出准确的语音端点。
一种语音端点检测方法装置设备存储介质

[发明专利]一种语音识别方法、装置、设备及存储介质-CN202211311416.6在审
发明人：尤祖寰;许丽;万根顺;熊世富;潘嘉;高建清;吴江照;胡国平 -专利权人：合肥智能语音创新发展有限公司
申请日： 2022-10-25 - 公布日： 2023-06-27 - 主分类号： G10L15/06 文献下载
摘要：本申请实施例中公开了一种语音识别方法、装置、设备及存储介质。其中，该方法包括：接收待识别语音信息；获取待识别语音信息对应的语种信息；根据语种信息确定语音识别模型包括的编码器中对应的语种残差模块；利用语种残差模块对待识别语音信息进行识别，得到初步识别结果；将初步识别结果输入语音识别模型包括的解码器进行识别，得到语音识别结果。可见，本申请实施例中根据语种信息能确定特定的语种残差模块对待识别语音信息进行识别，从而使得语音识别更具针对性，能更好地提升编码器对多语种信息的区分能力与提取能力，进而能提高语音识别准确性。
一种语音识别方法装置设备存储介质

[发明专利]情感检测方法、装置、电子设备和存储介质-CN202211095543.7在审
发明人：方长婷;许丽;万根顺;潘嘉;刘聪;胡国平;刘庆峰 -专利权人：科大讯飞股份有限公司
申请日： 2022-09-05 - 公布日： 2023-06-23 - 主分类号： G10L25/63 文献下载
摘要：本发明提供一种情感检测方法、装置、电子设备和存储介质，其中方法包括:获取待检测语音；基于情感检测模型，对所述待检测语音的语义特征进行情感检测，得到情感检测结果；其中，所述情感检测模型是基于样本语音的语义特征以及所述样本语音的语音情感标签训练得到的；所述样本语音的语音情感标签是基于所述样本语音的转写文本中各关键词的分词情感信息确定的。本发明中样本语音的语音情感标签是基于样本语音的转写文本中各关键词的分词情感信息确定的，从而实现自监督训练，进而节省人工标注成本的同时确保情感检测的鲁棒性。
情感检测方法装置电子设备存储介质

[发明专利]音频识别方法和音频识别模型的训练方法-CN202211718321.6在审
发明人：郭顺杰;万根顺;熊世富;高建清;潘嘉;刘聪 -专利权人：科大讯飞股份有限公司
申请日： 2022-12-29 - 公布日： 2023-06-06 - 主分类号： G10L15/06 文献下载
摘要：本申请提供一种音频识别方法和音频识别模型的训练方法，所述音频识别方法，包括：获取待识别的音频数据；利用预先训练的音频识别模型，对所述待识别的音频数据进行音频识别处理，得到与所述音频数据对应的文本数据；其中，所述音频识别模型基于对第一音频识别模型中与音频识别任务相关的模型参数进行掩码梯度更新获得；所述第一音频识别模型通过利用包含文本伪标签的第一音频数据和包含文本标签的第二音频数据，对初始音频识别模型进行音频识别训练获得，所述文本伪标签由所述初始音频识别模型对所述第一音频数据进行音频识别而确定。
音频识别方法模型训练

[发明专利]文本处理方法、装置、设备及存储介质-CN202011632673.0有效
发明人：闫莉;万根顺;高建清;刘聪;王智国;胡国平 -专利权人：科大讯飞股份有限公司
申请日： 2020-12-31 - 公布日： 2023-05-30 - 主分类号： G06F16/30 文献下载
摘要：本申请实施例公开了一种文本处理方法，根据文本中的各个句子的文本特征对文本中的各个句子进行处理，得到边界位置序列；该边界位置序列中的每个边界位置指示一个有效片段的起始句子或结束句子，其中，第K个有效片段的起始句子基于第K‑1个有效片段的结束句子确定，第K个有效片段的结束句子基于第K个有效片段的起始句子确定；基于边界位置序列，获取文本中的有效片段以构成目标文本。基于本申请的方案，实现了文本中的有效片段的自动提取，提高了对文本进行规整的效率。
文本处理方法装置设备存储介质

[发明专利]语音识别模型的训练、语音识别方法、装置、设备及介质-CN202211635640.0在审
发明人：李明;万根顺;熊世富;高建清;潘嘉;刘聪 -专利权人：科大讯飞股份有限公司
申请日： 2022-12-19 - 公布日： 2023-05-26 - 主分类号： G10L15/06 文献下载
摘要：本发明提供一种语音识别模型的训练、语音识别方法、装置、设备及介质，其中方法包括：确定非流式识别分支和流式识别分支；获取所述非流式识别分支进行语音识别时提取的样本语音中各帧的第一语音特征，以及所述流式识别分支进行语音识别时提取的所述样本语音中各帧的第二语音特征；对所述各帧的第一语音特征进行聚类，得到多个第一特征簇；将所述各帧的第二语音特征划分至所述多个第一特征簇，并基于所述第二语音特征所属的第一特征簇，确定特征提取损失；基于所述特征提取损失，对所述流式识别分支进行参数迭代，得到所述语音识别模型。本发明提供的方法、装置、电子设备及存储介质，进一步提高流式识别分支的语音识别结果的可靠性和准确性。
语音识别模型训练方法装置设备介质

[发明专利]语音端点检测方法、装置、存储介质及电子设备-CN202211477438.X在审
发明人：陈洁茹;万根顺;张景宣;付中华;高建清;潘嘉;刘聪;胡国平 -专利权人：西安讯飞超脑信息科技有限公司
申请日： 2022-11-23 - 公布日： 2023-05-16 - 主分类号： G10L25/87 文献下载
摘要：本申请提供了一种语音端点检测方法、装置、存储介质及电子设备，涉及语音处理技术领域。该方法包括：获取目标对象对应的音频帧和视频帧，音频帧和视频帧处于同一目标时段；分别对音频帧和视频帧进行特征提取，得到音频特征和视频特征；基于音频特征和视频特征，确定目标时段内的多个时间节点各自的强模态特征；基于目标时段内的多个时间节点各自的强模态特征，确定目标时段内的语音端点。通过本申请中的方案，提高了语音端点的检测精度，以及语音端点检测在异常情况下的正常运行。
语音端点检测方法装置存储介质电子设备

[发明专利]时序采样方法及装置、语音识别方法及装置-CN202211584850.1在审
发明人：牛怡珺;万根顺;熊世富;高建清;潘嘉;刘聪 -专利权人：科大讯飞股份有限公司
申请日： 2022-12-09 - 公布日： 2023-05-05 - 主分类号： G10L15/06 文献下载
摘要：本申请提供了一种时序采样方法及装置、语音识别方法及装置，涉及人工智能技术领域。该时序采样方法包括：获取目标语音数据；基于目标语音数据，利用采样模型，确定目标语音数据的时序采样结果，其中，采样模型包括l层下采样网络和l层上采样网络，每层下采样网络包括并联的skip模块和下采样模块，每层上采样网络包括并联的skip模块和上采样模块，采样模型用于基于每层下采样网络的skip模块和下采样模块以及每层上采样网络的skip模块和上采样模块，为目标语音数据匹配采样模型中的最优采样路径，l为大于1的正整数。通过本申请中的时序采样方法，能够提升对语音数据的声学特征的学习能力、以及建模粒度的适配度。
时序采样方法装置语音识别

[发明专利]语音识别、语音识别模型训练方法、装置、介质及设备-CN202211637702.1在审
发明人：徐启航;万根顺;熊世富;高建清;潘嘉;刘聪 -专利权人：科大讯飞股份有限公司
申请日： 2022-12-16 - 公布日： 2023-04-25 - 主分类号： G10L15/02 文献下载
摘要：本申请实施例公开了一种语音识别、语音识别模型训方法、装置、存储介质及设备，该方法包括：通过在语音识别模型的编码网络模块中加入混合专家网络和嵌入模块，利用嵌入模块对目标语音数据的目标声学特征序列进行语音特征提取处理，以得到目标语音嵌入特征，将目标语音嵌入特征和目标声学特征序列输入至混合专家网络的神经网络模块中进行编码处理，使得混合专家网络的神经网络模块中可以得到与语言相关的特征和目标声学特征序列，提高混合专家网络的神经网络模块的输出结果的准确性，将输出结果输入至解码网络模块中进行解码处理，以得到目标语音数据的识别文本，可提高各种语言混说场景中的语音识别的准确率。
语音识别模型训练方法装置介质设备

1
2
3
4
5
6
7
下一页»
尾页
共 101 条