专利名称
主分类
A 农业
B 作业;运输
C 化学;冶金
D 纺织;造纸
E 固定建筑物
F 机械工程、照明、加热
G 物理
H 电学
专利下载VIP
公布日期
2023-10-24 公布专利
2023-10-20 公布专利
2023-10-17 公布专利
2023-10-13 公布专利
2023-10-10 公布专利
2023-10-03 公布专利
2023-09-29 公布专利
2023-09-26 公布专利
2023-09-22 公布专利
2023-09-19 公布专利
更多 »
专利权人
国家电网公司
华为技术有限公司
浙江大学
中兴通讯股份有限公司
三星电子株式会社
中国石油化工股份有限公司
清华大学
鸿海精密工业股份有限公司
松下电器产业株式会社
上海交通大学
更多 »
钻瓜专利网为您找到相关结果5个,建议您升级VIP下载更多相关专利
  • [发明专利]一种面向医院环境下语言障碍患者的唇语识别方法-CN202310427059.8在审
  • 肖业伟;朱澳苏;刘烜铭;腾连伟;田丕承;黄健 - 湘潭大学
  • 2023-04-20 - 2023-10-27 - G06V40/16
  • 本发明公开了一种面向医院环境下语言障碍患者的唇语识别方法,属于唇语识别技术领域,包括以下步骤:S1:构建医院中文唇读数据集;S2:构建中文句子唇读网络模型;S3:训练网络;S4:搭建演示系统实现唇语识别。本发明采用上述的一种面向医院环境下语言障碍患者的唇语识别方法,通过录制在病房环境下模拟暂时性语言障碍患者说话的视频作为源数据,然后将视频输入到中文唇语识别数据采集系统中制作数据集,通过这种数据生成的方式可以有效避免数据集本身出现错误的问题,提高训练模型的鲁棒性,填补了病房场景下唇语识别的研究的空白;基于Transformer结构,让模型能够有效的捕捉视频帧中的时空信息,提高唇语识别的精度。
  • 一种面向医院环境语言障碍患者识别方法
  • [发明专利]一种基于交叉注意力机制的说话人检测及字幕生成方法-CN202211561326.2有效
  • 肖业伟;刘烜铭;滕连伟;朱澳苏;田丕承;黄健 - 湘潭大学
  • 2022-12-07 - 2023-07-21 - G10L15/26
  • 本发明公开了一种基于交叉注意力机制的说话人检测及字幕生成方法,涉及主动说话人检测以及字幕生成技术领域,包括以下步骤:(1)获取数据集;(2)设计算法模型,得到主动说话人检测及字幕生成模型;(3)对数据进行预处理;(4)使用设计的主动说话人检测及字幕生成模型对预处理过的数据进行训练,得到训练模型;(5)对主动说话人检测及字幕生成进行演示,将字幕生成结果展示在视频下方。通过设计模型的视觉时间编码器和音频时间编码器,在获取具有时空信息的音视频特征的同时,应用交叉注意力机制让音频信息和视频信息相互学习,让字幕生成器能够在多说话人场景下生成与说话人对应的字幕,并且在复杂的语音环境下仍能保持准确性。
  • 一种基于交叉注意力机制说话检测字幕生成方法
  • [发明专利]一种粤语唇读识别方法、设备以及存储介质-CN202111507949.7在审
  • 肖业伟;滕连伟;朱澳苏;刘烜铭;田丕承 - 湘潭大学
  • 2021-12-10 - 2022-04-08 - G06V20/40
  • 本发明公开了一种粤语唇读识别方法、设备以及存储介质,方法包括获取第一粤语视频片段;裁剪第一粤语视频片段中的无用片段,得到第二粤语视频片段;划分第二粤语视频片段中的视频序列和音频序列,对音频序列进行分词并生成分词时间戳,根据分词和分词时间戳生成标签;提取视频序列中的人脸图像,并过滤不完整的人脸图像,根据过滤后的人脸图像和标签生成样本图像;根据样本图像训练预设的粤语唇读识别模型,得到训练完成的粤语唇读识别模型;根据训练完成的粤语唇读识别模型识别目标视频序列,得到识别结果。本方法能够采集粤语单词级的唇读样本图像数据集,由于剔除了视频序列中的无用序列,能够提升训练后的模型的识别精度。
  • 一种粤语识别方法设备以及存储介质

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top