“钱馨园”申请（专利权）人搜索_中国专利权人_发明人_技术持有人_科研专家_钻瓜专利网

钻瓜专利网为您找到相关结果3个，建议您升级VIP下载更多相关专利

[发明专利]一种基于空间线索的语音-图像跨模态检索方法及装置-CN202311104574.9在审
发明人： 钱馨园;高天浩;王雨桐;魏丽芳;刘艳;殷绪成 -专利权人：北京科技大学
申请日： 2023-08-30 - 公布日： 2023-09-29 - 主分类号： G06F16/432 文献下载
摘要：本发明公开了一种基于空间线索的语音‑图像跨模态检索方法及装置，涉及计算机视觉和语音处理技术领域。包括：将语音信号输入到音频编码器，得到空间相关的声学特征；将图像信息输入到图像编码器，得到场景图像特征；对特征进行CSIR，得到跨模态检索结果。本发明通过使用深度学习和相关算法，能够对图像和语音之间的空间关联性进行分析与建模，从而实现图像和语音之间的跨模态检索。与以往的跨模态检索方法只针对语音‑图像的共同语义信息建模不同，本发明重点关注不同模态之间的空间语义一致性，通过深入研究图像和语音之间的空间属性联系，本发明可以帮助用户更高效地检索相关的图像和语音内容，提供更好的交互体验和信息管理能力。
一种基于空间线索语音图像跨模态检索方法装置

[发明专利]一种基于堆栈记忆网络的多模态语音合成方法及系统-CN202310814315.9有效
发明人：刘艳;魏丽芳;钱馨园;杨思琪;孙梦磊;刘琦;张天昊;陈松路;殷绪成 -专利权人：北京科技大学
申请日： 2023-07-05 - 公布日： 2023-09-15 - 主分类号： G10L13/08 文献下载
摘要：本发明提供一种基于堆栈记忆网络的多模态语音合成方法及系统，涉及视频和语音处理技术领域，包括：用视频信息辅助从文本中合成具有视听同步性的语音。从人脸中提取说话人特性，即利用人脸控制合成语音的音色。在训练和推理时，通过引入的视频‑语音堆栈记忆网络，显式的利用视频检索对应语音，并从检索得到的语音中提取风格特征，解决多模态TTS模块训练‑推理风格不匹配的问题并增强合成音频的表现性，定制个性化语音。本发明引入视频‑语音堆栈记忆网络显式的连接视频和语音两个模态，而非利用距离损失去最小化不同模态信息提取的特征之间的距离。
一种基于堆栈记忆网络多模态语音合成方法系统

[发明专利]一种多模态的表现性语音合成方法及装置-CN202310613237.6有效
发明人：刘艳;魏丽芳;钱馨园;张传飞;赖志豪;刘琦;张天昊;陈松路;殷绪成 -专利权人：北京科技大学
申请日： 2023-05-29 - 公布日： 2023-08-15 - 主分类号： G10L13/02 文献下载
摘要：本发明公开了一种多模态的表现性语音合成方法及装置，属于语音合成技术领域，方法包括：将噪声语谱图和与噪声语谱图对应的第一无声视频序列输入至噪声掩码编码器，通过噪声掩码编码器获得去噪掩码；将第二无声视频序列输入至多尺度风格编码器，通过多尺度风格编码器提供多尺度的风格嵌入；将文本信息输入至文本编码器，通过文本编码器获得文本信息嵌入；文本信息嵌入序列经过变量适配器的处理，获得帧级别的语音特征；将帧级别的语音特征与去噪掩码相乘，获得去噪后的帧级别的语音特征；将去噪后的帧级别的语音特征与风格嵌入在通道维度上进行拼接；将拼接得到的特征序列输入至解码器，通过解码器合成干净的语谱图。
一种多模态表现语音合成方法装置