[发明专利]一种语音口型动画的识别方法及装置在审

专利信息
申请号: 201610823063.6 申请日: 2016-09-14
公开(公告)号: CN106297792A 公开(公告)日: 2017-01-04
发明(设计)人: 林明安;吴松城;陈军宏 申请(专利权)人: 厦门幻世网络科技有限公司
主分类号: G10L15/25 分类号: G10L15/25;G10L15/14
代理公司: 北京国昊天诚知识产权代理有限公司11315 代理人: 黄熊
地址: 361000 福建省厦*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要: 本申请公开了一种语音口型动画的识别方法和装置,用以解决现有技术无法在移动设备上实现语音台词与口型动画合成的问题。方法包括:从待识别语音中提取语音特征;将提取的所述语音特征,输入预先训练的语音口型识别模型;确定所述语音口型识别模型输出的与所述语音特征对应的口型类别;根据所述语音口型识别模型输出的口型类别,确定与所述口型类别对应的口型动画,作为所述待识别语音的口型动画。
搜索关键词: 一种 语音 口型 动画 识别 方法 装置
【主权项】:
一种语音口型动画的识别方法,其特征在于,包括:从待识别语音中提取语音特征;将提取的所述语音特征,输入预先训练的语音口型识别模型;确定所述语音口型识别模型输出的与所述语音特征对应的口型类别;根据所述语音口型识别模型输出的口型类别,确定与所述口型类别对应的口型动画,作为所述待识别语音的口型动画。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门幻世网络科技有限公司,未经厦门幻世网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610823063.6/,转载请声明来源钻瓜专利网。

同类专利
  • 一种语音信息识别方法、装置及设备-201910707528.5
  • 王夏鸣 - 大众问问(北京)信息科技有限公司
  • 2019-08-01 - 2019-11-08 - G10L15/25
  • 本发明实施例公开了一种语音信息识别方法、装置及设备,方法包括:持续监测并识别设定环境区域内的待识别信息;其中,所述待识别信息包括环境语音信息、用户面部信息、用户视线信息以及用户唇动信息;如果根据所述用户面部信息和所述用户唇动信息,或根据所述用户面部信息、所述用户视线信息以及所述用户唇动信息,确定所述环境语音信息包括目标用户发出的语音指令信息,则对所述语音指令信息进行响应。本发明实施例的技术方案能够提高语音交互效率。
  • 一种语音和唇语相融合的身份认证方法-201910603999.1
  • 张新曼;申沅均;陈奕宇;公维勇;王寅;尚东鹏;许学斌 - 西安交通大学;广东顺德西安交通大学研究院
  • 2019-07-05 - 2019-10-22 - G10L15/25
  • 本发明公开了一种语音和唇语相融合的身份认证方法,涉及信息安全及模式认证领域。该语音和唇语相融合的身份认证方法包括以下步骤:1)提取待认证的语音倒频谱特征和唇语特征;2)采用并行策略融合所述语音倒频谱特征和所述唇语特征,得到复向量特征;3)利用复向量特征作为训练样本训练复数极限学习机的多输入多输出模型,根据输出的分布及其取值判断是否认证成功;若输出结果向量中的最大值与提示符一致且该值大于设定阈值,则认证成功;否则,认证失败。该语音和唇语相融合的身份认证方法,采用语音和唇语相结合的多模生物特征进行身份认证,提高了身份认证系统的强健性。
  • 语音输入启动方法、装置及计算机设备-201810145765.2
  • 蒋志华;李成 - 优视科技有限公司
  • 2018-02-12 - 2019-08-23 - G10L15/25
  • 本发明提供一种语音输入启动方法、装置及计算机设备。该方法包括:确定用户与终端的距离在预置距离范围内;通过所述终端摄像头拍摄用户的图像;获取所述图像中的用户头像特征;判断所述头像特征是否位于所述图像中的预设位置;若是,启动所述终端的语音输入功能。该语音输入启动方法在识别到用户的特定状态时触发语音交互,用户不需要额外记忆不同应用的不同触控位置,从而使语音交互更加自然,提高用户体验。
  • 一种将音视频数据转化成文字记录的系统和方法-201611170040.6
  • 李纯冬 - 广州视源电子科技股份有限公司;广州视睿电子科技有限公司
  • 2016-12-16 - 2019-07-16 - G10L15/25
  • 本发明涉及一种将音视频数据转化成文字记录的系统和方法,其中系统包括数据收集部分、数据识别部分以及数据组织部分;所述数据收集部分包括音频采集模块和视频采集模块;所述数据识别部分包括语音和声纹识别模块以及人脸和表情识别模块;所述数据组织部分根据所述文字信息、识别的开始时间、当前说话者的身份标签、当前说话者的情绪,生成文字记录。本发明更加细致完整地保存整个音视频数据过程,更贴近真实的情况;本发明将音视频数据转换为文本格式进行保存,大大降低了存储和传输的成本,也便于后续查看记录,可以更加快速地浏览和定位会议内容。
  • 一种口型转换口罩-201910021272.2
  • 郭红;康光辉;李海肖;刘世恩;董双波 - 承德石油高等专科学校
  • 2019-01-09 - 2019-04-02 - G10L15/25
  • 本发明公开了一种口型转换口罩,包括口罩本体,微型高清摄像头、单片机、显示器和扬声器。本发明公开了一种口型转换口罩,结构简单,能够将无声的口型转化为文字和声音,从而实现哑者与说话正常人群之间的正常沟通,极大程度降低了需要学习哑语造成的时间成本和金钱成本,同时本发明携带方便,从而便于哑者随时随地与他人进行沟通。
  • 确定是否是真唱的方法和装置-201810833758.1
  • 汤伯超 - 广州酷狗计算机科技有限公司
  • 2018-07-26 - 2018-11-30 - G10L15/25
  • 本公开是关于一种确定是否是真唱的方法和装置,属于电子技术领域。所述方法包括:在目标直播间执行K歌功能的过程中,获取在多个预设的播放时间点采集的直播视频帧;确定每个获取的直播视频帧中上唇位置和下唇位置之间的距离;根据每个获取的直播视频帧中上唇位置和下唇位置之间的距离,确定目标直播间是否处于主播假唱状态。采用本公开,可以通过计算机设备自动判断主播是否是假唱,判断处理的效率较高,即使直播间的数量巨大,也可以及时发现主播的违规操作。
  • 一种基于口型识别的无声交流系统及系统和方法-201810403743.1
  • 刘佩佩 - 深圳龙图腾创新设计有限公司
  • 2018-04-28 - 2018-11-20 - G10L15/25
  • 本发明公开了一种基于口型识别的无声交流方法,包括如下步骤:S1.面部识别模块对使用者面部进行扫描识别,并形成面部特征信息后将其传输给录像模块;S2.当面部特征信息匹配时,录像模块对说话者口型变化进行图像录入,并形成图像信息传输给存储模块;当面部特征信息不匹配时,录像模块不进行图像录入;一种基于口型识别的无声交流系统,包括面部识别模块、录像模块、存储模块、口型识别模块、口型转化模块、传输模块、切换模块、显示模块和音频播放模块;本发明实现无声快速交流,保证聊天隐私不被他人轻易窃取,交流过程安静无声,不会影响到他人,同时保证聊天信息的准确传达而不受外界噪声干扰。
  • 一种基于唇语识别的智能终端操控系统-201810256940.5
  • 王凯 - 王凯
  • 2018-03-27 - 2018-08-21 - G10L15/25
  • 本发明公开了一种基于唇语识别的智能终端操控系统,包括使用端设备和执行端设备,其中,使用端设备包括:使用端主体1,语音接收装置2,显示界面3,视频采集装置4,信号传递介质5;执行端设备包括:控制器6,执行端主体7;在使用端设备中,语音接收装置2采集使用者语音信息,视频接收装置4采集使用者口型图像信息,识别系统可同时对语音信息进行语音识别产生语音指令和对口型图像信息进行唇语识别产生唇语指令;在执行端设备中,控制器6通过信息传递介质5接收识别系统信息,对执行端主体7进行控制;控制器6通过信息传递介质5将执行端设备周边环境信息和状态信息反馈传递到使用端设备,供使用者通过显示界面3进行实时监控。
  • 一种基于唇语采集和语音拾取的多语言翻译器-201721368326.5
  • 焦友明;刘念邱 - 成都铅笔科技有限公司
  • 2017-10-23 - 2018-06-22 - G10L15/25
  • 本实用新型公开了一种基于唇语采集和语音拾取的多语言翻译器,壳体内的内部电路的音频采集装置的音频输出端与音频输入模块的输入端连接,音频输入模块的输出端与语音识别模块的音频输入端连接,语音识别模块的语音信号输出端与微处理器的语音信号输入端连接;微处理器的显示控制信号端与显示模块的控制信号输入端连接,微处理器的图像输入端与摄像头的图像输出端连接,微处理器的语音合成控制信号输出端与语音合成模块的控制信号输入端连接,微处理器的语音播放控制信号输出端与语音播放模块的控制信号输入端连接,语音合成模块的合成语音输出端与语音播放模块的语音输入端连接。该翻译器提取语音信息和说话者的唇语信息,实时进行语音翻译。
  • 一种基于唇语采集和语音拾取的多语言翻译器-201710993228.9
  • 焦友明;刘念邱 - 成都铅笔科技有限公司
  • 2017-10-23 - 2018-01-19 - G10L15/25
  • 本发明公开了一种基于唇语采集和语音拾取的多语言翻译器,壳体内的内部电路的音频采集装置的音频输出端与音频输入模块的输入端连接,音频输入模块的输出端与语音识别模块的音频输入端连接,语音识别模块的语音信号输出端与微处理器的语音信号输入端连接;微处理器的显示控制信号端与显示模块的控制信号输入端连接,微处理器的图像输入端与摄像头的图像输出端连接,微处理器的语音合成控制信号输出端与语音合成模块的控制信号输入端连接,微处理器的语音播放控制信号输出端与语音播放模块的控制信号输入端连接,语音合成模块的合成语音输出端与语音播放模块的语音输入端连接。该翻译器提取语音信息和说话者的唇语信息,实时进行语音翻译。
  • 语音处理装置和语音处理方法-201310144427.4
  • 萧希群;魏守德 - 纬创资通股份有限公司
  • 2013-04-24 - 2017-12-22 - G10L15/25
  • 一种语音处理装置与其对应的语音处理方法。上述语音处理装置包括收音器、摄影机、以及处理器。收音器接收声音讯号。摄影机拍摄影片。处理器耦接收音器和摄影机,取得声音讯号的语音起始时间,检测影片中的人脸,检测人脸的嘴型轮廓的变动时间,并检验至少一个预设条件。在上述至少一个预设条件全部成立时,处理器对上述声音讯号进行语音识别。其中,上述的至少一个预设条件包括上述语音起始时间和上述变动时间的误差小于一临界值。
  • 自适应唇语交互方法以及交互装置-201611075470.X
  • 黄源浩;刘龙;肖振中;许星 - 深圳奥比中光科技有限公司
  • 2016-11-29 - 2017-03-15 - G10L15/25
  • 本发明公开了一种自适应唇语交互方法以及交互装置,自适应唇语交互方法包括获取目标人体对象的深度图像以及目标人体对象的红外图像或彩色图像;分别从深度图像以及红外图像或彩色图像中获取目标人体对象的唇部区域图像;从唇部区域图像提取唇部特征,并将从深度图像以及红外图像或从深度图像以及彩色图像中提取的唇部特征融合处理后进行唇语识别;将唇语识别的结果转化成对应的操作指令,并根据所述操作指令进行交互。上述方式,不容易受到环境如光线强弱的影响,能够有效提高图像识别的命中率,进一步提高唇语识别的命中率,最终可有效改善交互的执行率和操作准确率。
  • 一种语音口型动画的识别方法及装置-201610823063.6
  • 林明安;吴松城;陈军宏 - 厦门幻世网络科技有限公司
  • 2016-09-14 - 2017-01-04 - G10L15/25
  • 本申请公开了一种语音口型动画的识别方法和装置,用以解决现有技术无法在移动设备上实现语音台词与口型动画合成的问题。方法包括:从待识别语音中提取语音特征;将提取的所述语音特征,输入预先训练的语音口型识别模型;确定所述语音口型识别模型输出的与所述语音特征对应的口型类别;根据所述语音口型识别模型输出的口型类别,确定与所述口型类别对应的口型动画,作为所述待识别语音的口型动画。
  • 语音识别方法、装置及用户设备-201510208370.9
  • 颜蓓 - 中兴通讯股份有限公司
  • 2015-04-28 - 2016-11-23 - G10L15/25
  • 本发明提供了一种语音识别方法、装置及用户设备。其中,该方法包括:采集语音信息及与语音信息相关联的视觉信息;根据视觉信息和语音信息进行语音识别。通过本发明,解决了相关技术中的语音识别技术对语音的识别率低的问题,提高了语音识别的识别率。
  • 一种语音识别的方法及系统-201610165978.2
  • 房少杰 - 广东小天才科技有限公司
  • 2016-03-21 - 2016-08-17 - G10L15/25
  • 本发明公开了一种语音识别的方法及系统。该方法,包括:一种语音识别的方法,其特征在于,包括:检测出与用户脸部的距离小于等于预置距离;识别出用户脸部的嘴型发生变化;对录取的语音进行识别。本发明能够在用户对着设备进行语音时,自动开启语音识别,对用户的语音进行识别,减少了开启的操作,提高了用户体验。
  • 一种语音输出方法、语音输出系统-201610004434.8
  • 张春宇;吴春芸;陈翩翩 - 昆山龙腾光电有限公司
  • 2016-01-06 - 2016-06-01 - G10L15/25
  • 本发明提供一种语音输出方法,所述语音输出方法包括建立唇部图像语音数据库;获取唇部图像;根据所述唇部图像语音数据库查找到获取的所述唇部图像对应的语音数据;输出所述唇部图像对应的语音。本发明还提供一种使用上述语音输出方法的语音输出系统,本发明提供的语音输出方法及语音输出系统,根据所述唇部图像语音数据库查找到获取的所述唇部图像对应的语音数据后输出语音,实现了无声到有声沟通方式,其适用性广、抗干扰性好。
  • 一种基于动作识别及语音技术的手语和唇语互译系统-201220688601.2
  • 陈拥权;王略志;刘思杨;胡翀豪 - 合肥寰景信息技术有限公司
  • 2012-12-13 - 2013-07-17 - G10L15/25
  • 本实用新型公开了一种基于动作识别及语音技术的手语和唇语互译系统,包括有壳体,壳体内设置有FPGA及DSP,壳体上设置有一对用于采集聋哑人手语动作的摄像头A和一对用于采集正常人唇语的摄像头B以及一个用于采集正常人声音的语音识别模块,两摄像头A、两摄像头B、语音识别模块分别通过信号线接入FPGA,FPGA与DSP双向通信连接,DSP分别通过I2C/SPI总线与两摄像头A、两摄像头B、语音识别模块连接,DSP还通过USB总线与上位机通讯连接,上位机外接有显示器、语音播放模块。公开了本实用新型可实现手语和唇语互译,具有很好的应用前景。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top