“周江琬”申请（专利权）人搜索_中国专利权人_发明人_技术持有人_科研专家_钻瓜专利网

钻瓜专利网为您找到相关结果3个，建议您升级VIP下载更多相关专利

[发明专利]一种基于频域增强的压缩视频人体行为识别方法-CN202310732026.4在审
发明人：明悦;熊露;周江琬;吕柏阳;冯帆 -专利权人：北京邮电大学
申请日： 2023-06-20 - 公布日： 2023-10-27 - 主分类号： G06V40/20 文献下载
摘要：本发明提供了一种基于频域增强的压缩视频人体行为识别方法。该方法包括：构建频域增强FE模块，所述FE模块包括时间‑通道双头注意力TCTHA模块和频段重叠的分组卷积FOGC模块；将所述FE模块插入到骨干网络为ResNet‑50的网络中，得到频域增强的压缩视频人体行为识别FENet网络，对所述FENet网络进行训练；将待识别的压缩视频数据输入到训练好的FENet网络中，FENet网络输出所述待识别的压缩视频的人体行为识别结果。本发明方法解决了频域学习的低频纹理和边缘线索丢失问题、时空建模不足的问题，与其他基于频域数据的方法相比，达到了更高的识别准确率，与其他基于压缩域数据的方法和基于RGB数据方法相比，也达到了具有竞争力的准确率，同时具有较高的效率。
一种基于增强压缩视频人体行为识别方法

[发明专利]基于双流自监督网络的语音识别方法、装置、设备及介质-CN202310874348.2在审
发明人：明悦;范春晓;吕柏阳;胡楠楠;周江琬 -专利权人：北京邮电大学
申请日： 2023-07-17 - 公布日： 2023-10-10 - 主分类号： G10L15/06 文献下载
摘要：本发明提供了一种基于双流自监督网络的语音识别方法、装置、设备及介质，包括：利用编码与量化模块对目标声学特征进行编码与量化获得语音向量；利用重构预测模块对语音向量进行重构预测获得第一语音表示；同时，利用对比预测模块中的自回归模型对语音向量进行预测获得第二语音表示；利用特征融合子模块对第一语音表示与第二语音表示进行融合获得融合后语音表示；基于目标声学特征，结合第一子模型与CTC模块中的连接时序分类器对融合后语音表示进行识别获得转录文本。本发明能够关注语音详细的上下文信息及语音不同特征之间的差异信息，提高自监督学习的鲁棒性，有效结合生成式和判别式自监督学习的互补优势。
基于双流监督网络语音识别方法装置设备介质

[发明专利]一种基于一致片段选择的视听事件定位方法-CN202310241056.5在审
发明人：明悦;冯帆;周江琬;吕柏阳;刘元安 -专利权人：北京邮电大学
申请日： 2023-03-14 - 公布日： 2023-06-23 - 主分类号： G06V20/40 文献下载
摘要：本发明提供了一种基于一致片段选择的视听事件定位方法。该方法包括：从待进行识别的视听事件的视频流中提取初步的视觉特征和听觉特征；将初步的视觉特征和听觉特征通过双向引导的共同注意力，得到增强后的视觉特征和听觉特征；从增强后的视觉特征和听觉特征中选择出语义一致的视听片段对；对语义一致的视听片段对进行视听特征融合，得到视听融合特征；根据视听融合特征对待进行识别的视听事件进行识别，获取待进行识别的视听事件的事件定位信息。本发明方法通过一致片段选择模块计算两两视听片段的关联关系，对于关联得分高的视听对有着一致的语义，将其保留，并对保留下来的视听对进行全局建模，获取整个视频的语义信息。
一种基于一致片段选择视听事件定位方法