[发明专利]一种语音识别方法、装置、设备及存储介质在审

专利信息
申请号: 202210982703.3 申请日: 2022-08-16
公开(公告)号: CN115394294A 公开(公告)日: 2022-11-25
发明(设计)人: 王庆然;孔常青;万根顺;马峰;熊世富;高万军;吴如松;高建清;潘嘉;刘聪;胡国平;刘庆峰 申请(专利权)人: 科大讯飞股份有限公司
主分类号: G10L15/25 分类号: G10L15/25;G10L15/02;G10L15/06
代理公司: 北京布瑞知识产权代理有限公司 11505 代理人: 尚文文
地址: 230088 安徽省*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要: 本申请实施例提供了一种语音识别方法、装置、设备及存储介质,所述方法包括:获取待识别语音数据和目标面部图像数据;其中,所述待识别语音数据包括目标用户的语音数据,所述目标面部图像数据至少包括所述目标用户的唇部区域之外的面部图像数据;至少根据所述目标面部图像数据,对所述待识别语音数据进行识别,得到对所述目标用户的语音数据的识别结果。本申请实施例提供的方法能够在用户唇部被遮挡的情况下,准确识别用户的语音。
搜索关键词: 一种 语音 识别 方法 装置 设备 存储 介质
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/202210982703.3/,转载请声明来源钻瓜专利网。

同类专利
  • 一种在线网课视频智能语音识别系统及识别方法-202310831495.1
  • 蒋斌;魏波;徐舒;莫彦平;李胜龙 - 河南恩久信息科技有限公司
  • 2023-07-07 - 2023-10-03 - G10L15/25
  • 本发明公开了一种在线网课视频智能语音识别系统及识别方法,具体涉及语音识别技术领域,基于语音识别和唇形识别将语音信号转化为清楚的文本信息,包括语音信号识别模块用于提取语音信号的特征,完成语音的识别,得到对应的音素信息;语音信号评估模块用于评估语音信号的质量,得到语音信号能被读懂的评价指数,当得到的质量评估值低于预设值则自启动唇形辅助识别模块;唇形辅助识别模块基于唇形获取对应的音素信息,将唇形识别结果传输至综合识别模块中;综合识别模块基于语音识别的结果和唇形识别的结果获取最终的文本信息,将文本信息存储在数据库中同时验证识别结果的准确性。
  • 控制装置、智能体装置以及计算机可读存储介质-201911058095.1
  • 尾中润一郎 - 本田技研工业株式会社
  • 2019-11-01 - 2023-10-03 - G10L15/25
  • 一种控制装置、智能体装置以及计算机可读存储介质,解决在搭载于通信终端的智能体装置对向该通信终端通知的信息进行语音输出的情况下,用户难以直观地把握输出的信息是哪个设备的信息的课题。该控制装置控制作为请求处理装置的用户界面发挥功能的智能体装置,所述请求处理装置获取由用户的语音以及姿态的至少一方表示的请求,并执行与该请求对应的处理。控制装置具备检测要向用户的通信终端发送消息的事件的发生的发送事件检测部、和在检测出事件的发生的情况下,决定经由通信网络向用户的通信终端传递语音消息的传递决定部。
  • 一种语音识别方法、系统、电子设备、存储介质及车辆-202310580191.2
  • 李俊 - 中国第一汽车股份有限公司
  • 2023-05-22 - 2023-09-15 - G10L15/25
  • 本申请公开了一种语音识别方法、系统、电子设备、存储介质及车辆,包括获取用户面部视频,其中,所述面部视频包括用户语音;对所述用户语音进行语音识别,生成语音文本;对所述用户面部视频进行唇语识别,生成唇语文本;对所述语音文本进行语义识别,从所述语音文本中确定错误文本段;基于所述错误文本段从所述唇语文本中提取对应的补正文本段;基于所述补正文本段替换所述语音文本中的错误文本段。通过上述方法,可有效减少语音识别的误识别率。
  • 嘴型生成方法、装置、设备及存储介质-202310631552.1
  • 魏来 - 重庆长安汽车股份有限公司
  • 2023-05-30 - 2023-09-12 - G10L15/25
  • 本发明涉及一种嘴型生成方法、装置、设备及存储介质,其中,嘴型生成方法包括:获取数字人的原始音频;根据原始音频,确定原始音频对应的预设情绪嘴型图和预设原始嘴型图;根据预设原始嘴型图和预设情绪嘴型图,确定原始音频对应的目标嘴型图。该方法可以先根据数字人的原始音频,确定其对应的预设情绪嘴型图以及预设原始嘴型图,然后再基于上述预设情绪嘴型图和预设原始嘴型图,得到原始音频对应的目标嘴型图,以使得目标嘴型图可以带有情绪,从而更好地保证目标嘴型图与原始音频之间的匹配度,提升使用体验。
  • 一种语音识别方法、装置、计算机设备及存储介质-202310567838.8
  • 康硕;王飞;钱晨 - 上海临港绝影智能科技有限公司
  • 2023-05-18 - 2023-08-15 - G10L15/25
  • 本公开提供了一种语音识别方法、装置、计算机设备及存储介质,包括:获取待识别视频,并对所述待识别视频进行预处理,从所述待识别视频中提取目标音频序列和目标唇部关键点序列;将所述目标音频序列和所述目标唇部关键点序列输入至预先训练的语音识别网络中,分别对所述目标音频序列进行特征提取,得到音频特征;以及,对所述目标唇部关键点序列进行特征提取,得到唇部特征;将所述音频特征和所述唇部特征进行融合,得到融合特征;基于所述融合特征,确定所述待识别视频对应的语音识别结果。
  • 基于语料关系的多领域唇语识别样本自动生成方法及系统-202310295664.4
  • 谭振华;吴晓儿;宁婧宇;茹禹然 - 东北大学
  • 2023-03-24 - 2023-07-25 - G10L15/25
  • 本发明提供一种基于语料关系的多领域唇语识别样本自动生成方法及系统,涉及唇语识别技术领域。该方法包括以下步骤:采集数据,预处理后保存为初始语料;构建语料库,基于基础词典与相关领域专用词典处理所述语料,形成领域语料库;合成语音,对语料库中各文本生成语音样本;生成唇形,结合数字人脸与语音文件,智能输出对应数字唇形;注释标签与生成数据库,对数字唇形进行标签标注,形成唇形数据集;语料库增量更新,从而建立能够动态扩充且领域化的唇形数据集。该方法解决了以往自建唇语数据集工作量大、效率低下的问题,大幅度提高唇形模型的样本数量与类别多样性,从而有效提升唇语识别模型的泛化能力。
  • 一种基于视听觉融合的多人对话点餐方法及系统-202110647307.0
  • 王坤朋;卢文静;姚娟;刘得榜;李文娜;蔡景祥;刘鹏;张江梅;冯兴华 - 西南科技大学
  • 2021-06-10 - 2023-07-11 - G10L15/25
  • 本发明公开了一种基于视听觉融合的多人对话点餐方法,持续采集多人对话的视频,将视频中人脸图像进行处理,得到每个点餐人的嘴部图像;结合嘴部图像,将混合语音分离,得到多个第一语音片段;将第一语音片段与点餐人进行匹配,得到确认了身份的第二语音片段,将同一个点餐人的多个语音片段分类到一起,对第二语音片段进行识别,包括餐厅菜名时,才处理该语音片段,提取其中的点餐信息,经点餐人确认后,将点餐信息传输给后厨,完成点餐。本发明能够实现多人长时间点餐识别,能够更加准确的分离混合语音,提高了语音分离的稳定性,且在点餐信息识别中保证了点餐人的隐私。
  • 语音交互方法及相关装置、设备、系统和存储介质-202310091983.3
  • 高万军;刘洋;张一明;肖建辉;倪新良;李超龙;邢猛;雷琴辉;刘俊峰 - 科大讯飞股份有限公司
  • 2023-01-17 - 2023-07-04 - G10L15/25
  • 本申请公开了一种语音交互方法及相关装置、设备、系统和存储介质,其中,语音交互方法包括:获取语音交互场景的拍摄图像和采集语音;基于拍摄图像进行检测,得到拍摄图像中目标对象的视线注视情况和唇部运动情况;基于唇部运动情况,从采集语音中提取目标对象的目标语音,并获取语音交互场景中交互设备的控制指令与目标语音的语义匹配情况;响应于视线注视情况包括目标对象的视线注视交互设备且存在语义匹配情况满足预设要求的控制指令,控制交互设备执行语义匹配情况满足预设要求的控制指令。上述方案,能够在语音交互之前免于语音唤醒,提升语音交互的便利性,同时提升语音交互的准确性。
  • 一种车载多模语音测试方法、系统、设备和介质-202310340774.8
  • 但欣翼 - 重庆长安汽车股份有限公司
  • 2023-03-31 - 2023-06-30 - G10L15/25
  • 本申请提供一种车载多模语音测试方法、系统、设备和介质,该方法包括:获取视频测试样本和音频测试样本,其中,所述视频测试样本中包含连续多帧人脸图像;对所述视频测试样本中的连续多帧人脸图像进行唇语识别,得到第一识别结果;对所述音频测试样本进行语音识别,得到第二识别结果;在所述第一识别结果与所述第二识别结果一致时,根据所述第一识别结果或所述第二识别结果进行车端功能唤醒,完成对应功能测试,得到测试结果。
  • 一种通过声音自动检测智能门铃响应延迟的方法和系统-202310635817.5
  • 杨瑞士;胡汉生 - 深圳市龙侨华实业有限公司
  • 2023-06-01 - 2023-06-30 - G10L15/25
  • 本发明提供了一种通过声音自动检测智能门铃响应延迟的方法和系统,包括以下步骤:步骤一:当智能门铃被触发时,通过触控检测模块同步获取智能门铃工作时的电信号,同时通过人像采集模块对智能门铃的前方进行人像采集。本发明通过触控检测模块同步获取智能门铃的电信号,通过声音采集模块对智能门铃被触发后的铃音进行收集,通过延迟特征计算模块对门铃的响应延迟时间进行计算,方便了对当前数据和以往数据进行对比,以判断智能门铃内的电器元件是否发生老化情况,通过人像采集模块、人像特征提取模块和数据传输模块的配合,可以对访客的特征进行及时保存和传输,进而避免出现访客视频被恶意篡改的情况。
  • 基于骨传导信号和唇部图像融合的语音合成方法及系统-202211452852.5
  • 印二威;张亚坤;袁昊;闫野;谢良;张敬;白晓伟;陈伟;施忠臣 - 中国人民解放军军事科学院国防科技创新研究院
  • 2022-11-21 - 2023-06-27 - G10L15/25
  • 本发明涉及一种基于骨传导信号和唇部图像融合的语音合成方法及系统,包括步骤:采集用户语音输入时同步获取的骨传导信号、唇部运动图像信号;基于骨传导信号、唇部运动图像信号确定时间域和空间域的单模态数据特征;基于所确定的时间域和空间域的二源单模态数据特征,应用融入跨模态注意力机制的生成对抗网络以及梅尔语谱图融合方法,建立语音模型,获得模态协同特征表达;基于所获得的模态协同特征表达,经神经网络模型可识别为特定短语和指令输出,利用人声合成模型实现语音合成。通过上述算法,实现模态协同表征共性内容,弥补单模态独立存在的表征残缺问题,优化高噪声干扰或缄默模式下语音合成的效果,从而扩展语音交互的可实现性。
  • 一种韩语翻译用读音识别装置-202223459116.0
  • 李春兰;李艳华;许春花 - 吉林师范大学
  • 2022-12-23 - 2023-06-27 - G10L15/25
  • 本实用新型公开了一种韩语翻译用读音识别装置,属于韩语翻译技术领域。本实用新型的一种韩语翻译用读音识别装置,包括固定底座,所述固定底座的上表面开设有容置槽,容置槽内设置有识别装置主控板,所述识别装置主控板的一端铰连接有显示屏,识别装置主控板的另一端设置有活动轴,活动轴贯穿固定底座,识别装置主控板的表面设置有拾音器。本实用新型的一种韩语翻译用读音识别装置,设置有拾音器拾音,并结合拍摄组件对使用者的唇部口型进行拍摄,读音获取模块获取拾音器的读音,校正模块获取拍摄组件拍摄到的使用者的唇部信息,通过口型与读音结合,判断对应的文字信息,从而给出对应翻译,准确性更好。
  • 一种基于语音驱动的真实感虚拟人生成方法及装置-202310081778.9
  • 百晓;李嘉禾;王晨;郑锦 - 北京航空航天大学
  • 2023-02-08 - 2023-06-02 - G10L15/25
  • 本发明提出一种基于语音驱动的真实感虚拟人生成方法:输入源视频和驱动音频;以源视频中的人物为虚拟人原型,从源视频中提取头部姿态、面部形状信息以及纹理信息;以驱动音频作为虚拟人说话的内容,输入驱动音频,合成与驱动音频同步的面部表情参数和眨眼动作信息;使用面部表情参数、眨眼动作信息、头部姿态、面部形状信息以及纹理信息构建虚拟人3DMM模型渲染图;引入Wav2Lip模块,将3DMM模型渲染图的唇部信息进行语音唇形一致性加强,获得虚拟人唇部增强结果图;输入驱动音频的梅尔频谱特征、虚拟人唇部增强结果图以及参考背景,利用条件生成对抗网络生成虚拟人视频。本发明有助于提高虚拟人视频生成的质量。
  • 文字驱动虚拟嘴型的深度模型构建训练方法-202310139299.8
  • 仇月娟;杨光耀;石丽娟 - 苏州联岳智能科技有限公司
  • 2023-02-20 - 2023-05-16 - G10L15/25
  • 本发明涉及嘴型的深度模型构建训练方法技术领域,具体为文字驱动虚拟嘴型的深度模型构建训练方法,包括以下步骤,S1:建立模型管理库。本发明中,在数据采集方面,参照低音区、中音区、高音区的标准,采集发音动作视频,提升数据集合的全面性,对声级变化带动基点调位幅度进行研究,生成幅度变化特征文件,并在数据联合方面,在原有基础上,增设基于口语发音的方式,按照单字符文件的发音,归类为单韵母字符、声母字符、复韵母字符,并建立索引,以此对所汇总同口语发音索引下的模型源文件执行联合运算,提炼生成口音特征文件,最终达成优化模型源文件的动作逻辑的效果,满足了对于嘴型模型更深层次的挖掘需求,避免生成结果失真。
  • 虚拟对象的驱动方法、装置、可读介质及电子设备-202310118642.0
  • 毕成;马泽君 - 北京有竹居网络技术有限公司
  • 2023-01-31 - 2023-05-12 - G10L15/25
  • 本公开涉及一种虚拟对象的驱动方法、装置、可读介质及电子设备,可以获取目标虚拟对象对应的目标音频;针对所述目标音频对应的每个国际音标IPA,根据预先建立的IPA聚类簇确定所述IPA对应的目标唇形参数;所述IPA聚类簇包括多个IPA集合,每个IPA集合包括至少一个IPA,同一IPA集合中的IPA对应的唇形参数相同;根据每个所述IPA分别对应的所述目标唇形参数对所述目标虚拟对象进行唇形驱动。
  • 一种机器人语音识别系统及其使用方法-202310220983.9
  • 邵镪钎;周天棋;卢佳 - 绵阳师范学院
  • 2023-03-09 - 2023-05-09 - G10L15/25
  • 本发明公开了一种机器人语音识别系统及其使用方法,属于语音识别领域,该语音识别系统包括底座和控制主机,设置有摄像装置、收声装置、图像处理模块、声音处理模块和中央处理模块,通过摄像装置可以实现对使用者的嘴部进行拍摄操作,图像处理模块会根据其内部的口型数据库对使用者的语音输入内容进行识别,得出一份基于使用者口型的语音识别结果,收声装置会对使用者的语音进行收集和识别操作,得出一份基于使用者语音输入的语音识别结果,再通过中央处理模块可以实现对两份语音识别结果进行分析处理,有效的提高语音识别系统的识别准确性。本发明具有多种识别方式一体和可根据使用者进行调节的优点。
  • 一种车内免唤醒语音交互方法、装置、设备及存储介质-202310009457.8
  • 郭一明;程成;王译;王晓晨;柳宇翔 - 重庆长安汽车股份有限公司
  • 2023-01-03 - 2023-04-25 - G10L15/25
  • 本发明提供一种车内免唤醒语音交互方法、装置、设备及存储介质,所述方法包括:获取本车车舱内N个位置上的车内人员的唇动信息,基于唇动信息识别车内人员的唇动信号,根据唇动信号确定唇动人员;获取唇动人员的声音信息,并基于声音信息识别唇动人员的发声信号,根据发声信号确定发声人员;基于声音信息获取发声人员的语音指令信息,并将语音指令信息与预设语音指令集进行匹配,根据匹配结果确定语音指令信息的命令集中信号;根据命令集中信号确定语音交互系统的响应策略为免唤醒模式。本方法实施方式简单,响应速度快,在车内有多个人使用语音交互系统时,无需每次使用都进行语音唤醒,能使语音交互更加方便、自然。
  • 一种基于多模态门控提升模型的视听语音降噪方法-202211628536.9
  • 张新曼;李扬科;王静静;李桂成;黄永文;王歆叶 - 西安交通大学
  • 2022-12-17 - 2023-04-25 - G10L15/25
  • 本发明公开了一种基于多模态门控提升模型的视听语音降噪方法,包括以下步骤:图像与音频的分离存储;音频与图像的预处理;借助唇部定位算法与短时傅里叶变换分别完成唇部图像的裁剪与语音频谱图的生成;使用层次化注意力模块与双路频谱增强模块分别实现视觉特征与音频特征的捕获与增强;利用门控编码器逐步融合视觉特征与音频特征;采用时频提升模块强化关键的视音特征;借助门控解码器估计纯净语音频谱图;借助短时傅里叶逆变换获取语音信号;完成网络模型的训练或测试。本发明鲁棒性强,适用范围广,可以实现复杂噪声环境下的语音降噪。与部分主流降噪模型相比,本发明在SI‑SDR和PESQ评价指标上分别提升了约15%和19%。
  • 角色区分方法、装置、设备及可读存储介质-202211654390.5
  • 雍文渊;柳聪;巩文青 - 科大讯飞股份有限公司
  • 2022-12-22 - 2023-04-18 - G10L15/25
  • 本申请公开了一种角色区分方法、装置、设备及可读存储介质。该方案中,在获取待进行角色区分处理的视频数据,以及,与视频数据对应的音频数据之后;先从视频数据中提取各个参会人的唇形图片数据;再将音频数据与各个参会人的唇形图片数据进行匹配,得到匹配结果;当匹配结果指示存在与音频数据匹配的唇形图片数据时,将与音频数据匹配的唇形图片数据对应的参会人确定为音频数据的说话人。该方案同时利用视频数据和音频数据,在有多人干扰或者环境复杂的室内场景中,如果有多人交谈,能够对交谈的多人进行准确的角色区分。
  • 无声唇语识别方法及系统-202010016710.9
  • 顾昌展;温力 - 上海交通大学
  • 2020-01-08 - 2023-04-07 - G10L15/25
  • 一种无声唇语识别方法及系统,通过连续发出作为载波的毫米波信号并聚焦于用户口腔区域,通过用户说话行为在相位上对毫米波信号进行调制并部分反射,通过对反射信号转换至基带并校正后采用基于三角变换的语音相位模糊线性重构,得到用户说话行为信息。本发明具有无需接触、穿透性强、精度高等优点;能够精确追踪唇部的精细位移运动,很好地检测出准确的语音命令。
  • 基于子空间稀疏注意力机制的唇语识别方法、系统及介质-202211518304.8
  • 陈亚雄;赵怡晨;路雄博;邓梦涵;熊盛武 - 武汉理工大学重庆研究院
  • 2022-11-30 - 2023-04-04 - G10L15/25
  • 本发明涉及一种基于子空间稀疏注意力机制的唇语识别方法、系统及介质,方法包括:获取唇部区域图像序列,基于所述唇部区域图像序列提取得到唇部特征序列;将所述唇部特征序列输入到预设的训练完备的音素序列提取模型,得到与所述唇部特征序列相对应的发音音素序列;将所述发音音素序列输入到搭建有子空间稀疏自注意力机制的句子推理模型中得到目标句子序列。本发明通过构建一个特殊的注意力机制对上下文信息进行增强,实现了在一个正向操作中预测长句子序列,从而大大提高推理速率和准确率。
  • 一种基于旁路卷积神经网络的视觉语音识别方法及其应用-202211582487.X
  • 赵仲秋;张厚森;丁丞 - 合肥工业大学;合肥工业大学智能制造技术研究院;广西科学院
  • 2022-12-09 - 2023-03-31 - G10L15/25
  • 本发明公开了一种基于旁路卷积神经网络的视觉语音识别方法及其应用,该方法包括:1、构建视觉语音识别数据集以及数据的预处理;2、构建基于旁路卷积神经的视觉语音识别网络,将预处理得到的唇读图像序列和像素级嘴唇轮廓图像序列输入到双分支架构的视觉语音识别网络两个分支中,具体两个分支均包括时空3D特征提取模块、2D时空特征提取模块、互相关时序解码模块、分类模块;3、基于旁路卷积神经的视觉语音识别网络的训练。本发明通过经掩码处理的数据,减少除嘴唇外额外的视觉信息对识别所带来的影响,从而能使识别模型摆脱说话者依赖,进而为视觉语言识别提供了一种新的解决方法。
  • 视频信号处理方法、装置、设备及可读存储介质-202211570582.8
  • 张景宣;万根顺;付中华;潘嘉;高建清;刘聪;胡国平;刘庆峰 - 科大讯飞股份有限公司
  • 2022-12-08 - 2023-03-28 - G10L15/25
  • 本申请公开了一种视频信号处理方法、装置、设备及可读存储介质。该方案中,在获取待处理的视频信号之后,从视频信号中提取唇语视频;再对唇语视频进行唇语识别处理和基于唇语的语音重建处理,得到预测文本和重构语音;最后将预测文本和重构语音作为视频信号的补充信号。本方案中,同时对视频信号进行唇语识别和基于唇语的语音重建,可以得到重构语音和预测文本,将重构语音和预测文本作为远距离视频监控场景的视频信号的补充信息,能够提升远距离视频监控的有效性,为异常检测,安全预警等提供了更为丰富的数据来源。
  • 语音识别方法、装置、设备及存储介质-202211339220.8
  • 瞿盛;安康 - 歌尔科技有限公司
  • 2022-10-28 - 2023-03-07 - G10L15/25
  • 本发明属于语音识别技术领域,公开了一种语音识别方法、装置、设备及存储介质。该方法包括:获取多个方位上的定位摄像模块反馈的唇语采集图像;根据各唇语采集图像确定目标唇语和用户唇部坐标;根据用户唇部坐标确定语音拾取阵列的语音拾取方向;获取语音拾取阵列根据所述语音拾取方向反馈的采集语音;根据目标唇语识别所述采集语音的语音内容。通过上述方式,根据多个方位上的定位摄像反馈的唇语采集图像确定目标唇语和用户唇部坐标,基于用户唇部坐标确定语音拾取方向,实现了采集语音的定向拾取,并基于目标唇语识别采集语音的语音内容,融合多种模态下的内容降低环境中噪声的干扰,实现了纯净信号的还原,提高了语音听感和语音识别的准确率。
  • 语音交互方法、电子设备及介质-202110865871.X
  • 朱维峰;曾俊飞;查永东 - 华为技术有限公司
  • 2021-07-29 - 2023-02-03 - G10L15/25
  • 本申请涉及语音控制领域,公开了一种语音交互方法、电子设备及介质。其中,语音交互方法包括:在检测出电子设备当前的语音交互环境不满足语音识别条件的情况下,确定用户当前的交互状态是否满足唇语识别条件;在确定出满足的情况下,获取采用唇语识别方式对电子设备接收的用户的语音指令进行识别所得到的唇语识别结果;执行唇语识别结果对应的功能。本申请实施例提供的语音识别方法在判断出采用语音识别的方式已经难以识别用户的语音指令的情况下,进一步地通过判断用户是否是在和语音助手进行交互来确定是否采用唇语识别的方式;该方法能够有效提高语音指令识别的准确率,从而进一步提高电子设备对用户语音指令执行的正确率。
  • 一种复合视觉、听觉多模态嘴型检测方法和装置以及设备-202211179226.3
  • 兰泽华;陈少伟;蔡如意 - 睿云联(厦门)网络通讯技术有限公司
  • 2022-09-27 - 2023-01-24 - G10L15/25
  • 本发明公开了一种复合视觉、听觉多模态嘴型检测方法和装置以及设备。该方法包括:同步采集语音数据及人脸数据;构建基于所述语音数据及人脸数据的多模态神经网络模型;采用双解码器联合优化的方式训练所述多模态神经网络模型;根据所述经训练后的多模态神经网络模型,来对人体的语音以及人脸关键点进行对应所述语音的脸部嘴型预测。本发明一方面使用关键点检测算法提取人脸图像的人脸关键点聚合人脸特征。另一方面,考虑了人脸五官轮廓的变化,从人脸特征与语音特征入手,将两者融合提取更加丰富的特征以表征嘴型的变化,使得拟真形象更为生动。
  • 一种基于深度学习的汉语普通话唇语识别方法-201811210728.1
  • 赵美蓉;吴大江;邢广鑫;郑叶龙 - 天津大学
  • 2018-10-17 - 2023-01-24 - G10L15/25
  • 本发明公开了一种基于深度学习的汉语普通话唇语识别方法,考虑到汉语语言结构的特点,采用了编码器‑解码器的算法架构,为了具有通用性和扩展性,使用卷积神经网络提取视频特征,编码器与解码器的子单元采用循环卷神经网络,汉语普通话标签采用词嵌入的编码方式,为了唇语算法识别的准确性,在编码器‑解码器输出部分添加注意力机制。本发明以汉语普通话句子级唇语识别为研究对象,通过分析影响唇语识别的制约因素,在建立的唇语识别模型中针对性的添加解决方法,获得了可以实际应用的唇语识别技术,为更高准确度和更具扩展性的唇语解决方案提供理论和技术基础。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top