专利名称
主分类
A 农业
B 作业;运输
C 化学;冶金
D 纺织;造纸
E 固定建筑物
F 机械工程、照明、加热
G 物理
H 电学
专利下载VIP
公布日期
2023-10-24 公布专利
2023-10-20 公布专利
2023-10-17 公布专利
2023-10-13 公布专利
2023-10-10 公布专利
2023-10-03 公布专利
2023-09-29 公布专利
2023-09-26 公布专利
2023-09-22 公布专利
2023-09-19 公布专利
更多 »
专利权人
国家电网公司
华为技术有限公司
浙江大学
中兴通讯股份有限公司
三星电子株式会社
中国石油化工股份有限公司
清华大学
鸿海精密工业股份有限公司
松下电器产业株式会社
上海交通大学
更多 »
钻瓜专利网为您找到相关结果3个,建议您升级VIP下载更多相关专利
  • [发明专利]一种基于空间线索的语音-图像跨模态检索方法及装置-CN202311104574.9在审
  • 钱馨园;高天浩;王雨桐;魏丽芳;刘艳;殷绪成 - 北京科技大学
  • 2023-08-30 - 2023-09-29 - G06F16/432
  • 本发明公开了一种基于空间线索的语音‑图像跨模态检索方法及装置,涉及计算机视觉和语音处理技术领域。包括:将语音信号输入到音频编码器,得到空间相关的声学特征;将图像信息输入到图像编码器,得到场景图像特征;对特征进行CSIR,得到跨模态检索结果。本发明通过使用深度学习和相关算法,能够对图像和语音之间的空间关联性进行分析与建模,从而实现图像和语音之间的跨模态检索。与以往的跨模态检索方法只针对语音‑图像的共同语义信息建模不同,本发明重点关注不同模态之间的空间语义一致性,通过深入研究图像和语音之间的空间属性联系,本发明可以帮助用户更高效地检索相关的图像和语音内容,提供更好的交互体验和信息管理能力。
  • 一种基于空间线索语音图像跨模态检索方法装置
  • [发明专利]一种多模态的表现性语音合成方法及装置-CN202310613237.6有效
  • 刘艳;魏丽芳;钱馨园;张传飞;赖志豪;刘琦;张天昊;陈松路;殷绪成 - 北京科技大学
  • 2023-05-29 - 2023-08-15 - G10L13/02
  • 本发明公开了一种多模态的表现性语音合成方法及装置,属于语音合成技术领域,方法包括:将噪声语谱图和与噪声语谱图对应的第一无声视频序列输入至噪声掩码编码器,通过噪声掩码编码器获得去噪掩码;将第二无声视频序列输入至多尺度风格编码器,通过多尺度风格编码器提供多尺度的风格嵌入;将文本信息输入至文本编码器,通过文本编码器获得文本信息嵌入;文本信息嵌入序列经过变量适配器的处理,获得帧级别的语音特征;将帧级别的语音特征与去噪掩码相乘,获得去噪后的帧级别的语音特征;将去噪后的帧级别的语音特征与风格嵌入在通道维度上进行拼接;将拼接得到的特征序列输入至解码器,通过解码器合成干净的语谱图。
  • 一种多模态表现语音合成方法装置

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top