[发明专利]一种语音口型动画的识别方法及装置在审

申请号：	201610823063.6	申请日：	2016-09-14
公开（公告）号：	CN106297792A	公开（公告）日：	2017-01-04
发明（设计）人：	林明安;吴松城;陈军宏	申请（专利权）人：	厦门幻世网络科技有限公司
主分类号：	G10L15/25	分类号：	G10L15/25;G10L15/14
代理公司：	北京国昊天诚知识产权代理有限公司11315	代理人：	黄熊
地址：	361000 福建省厦***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：	本申请公开了一种语音口型动画的识别方法和装置，用以解决现有技术无法在移动设备上实现语音台词与口型动画合成的问题。方法包括：从待识别语音中提取语音特征；将提取的所述语音特征，输入预先训练的语音口型识别模型；确定所述语音口型识别模型输出的与所述语音特征对应的口型类别；根据所述语音口型识别模型输出的口型类别，确定与所述口型类别对应的口型动画，作为所述待识别语音的口型动画。
搜索关键词：	一种语音口型动画识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种语音口型动画的识别方法，其特征在于，包括：从待识别语音中提取语音特征；将提取的所述语音特征，输入预先训练的语音口型识别模型；确定所述语音口型识别模型输出的与所述语音特征对应的口型类别；根据所述语音口型识别模型输出的口型类别，确定与所述口型类别对应的口型动画，作为所述待识别语音的口型动画。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于厦门幻世网络科技有限公司，未经厦门幻世网络科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610823063.6/，转载请声明来源钻瓜专利网。

同类专利

一种语音信息识别方法、装置及设备-201910707528.5
发明人：王夏鸣 -专利权人：大众问问（北京）信息科技有限公司
申请日： 2019-08-01 - 公布日： 2019-11-08 - 主分类号： G10L15/25
摘要：本发明实施例公开了一种语音信息识别方法、装置及设备，方法包括：持续监测并识别设定环境区域内的待识别信息；其中，所述待识别信息包括环境语音信息、用户面部信息、用户视线信息以及用户唇动信息；如果根据所述用户面部信息和所述用户唇动信息，或根据所述用户面部信息、所述用户视线信息以及所述用户唇动信息，确定所述环境语音信息包括目标用户发出的语音指令信息，则对所述语音指令信息进行响应。本发明实施例的技术方案能够提高语音交互效率。

一种语音和唇语相融合的身份认证方法-201910603999.1
发明人：张新曼;申沅均;陈奕宇;公维勇;王寅;尚东鹏;许学斌 -专利权人：西安交通大学;广东顺德西安交通大学研究院
申请日： 2019-07-05 - 公布日： 2019-10-22 - 主分类号： G10L15/25
摘要：本发明公开了一种语音和唇语相融合的身份认证方法，涉及信息安全及模式认证领域。该语音和唇语相融合的身份认证方法包括以下步骤：1)提取待认证的语音倒频谱特征和唇语特征；2)采用并行策略融合所述语音倒频谱特征和所述唇语特征，得到复向量特征；3)利用复向量特征作为训练样本训练复数极限学习机的多输入多输出模型，根据输出的分布及其取值判断是否认证成功；若输出结果向量中的最大值与提示符一致且该值大于设定阈值，则认证成功；否则，认证失败。该语音和唇语相融合的身份认证方法，采用语音和唇语相结合的多模生物特征进行身份认证，提高了身份认证系统的强健性。

基于语音的嘴型生成方法和装置-201910512255.9
发明人：刘霄;李鑫;龙翔;张赫男;孙昊;文石磊;丁二锐 -专利权人：北京百度网讯科技有限公司
申请日： 2019-06-13 - 公布日： 2019-09-24 - 主分类号： G10L15/25
摘要：本发明实施例提供一种基于语音的嘴型生成方法和装置，属于深度学习领域。该方法包括：获取所述语音；根据所述语音以及训练后的时间卷积网络，得到嘴部关键点坐标序列；根据所述嘴部关键点坐标序列得到所述嘴型。该基于语音的嘴型生成方法和装置可以并行处理多条语音，提高处理效率。

语音输入启动方法、装置及计算机设备-201810145765.2
发明人：蒋志华;李成 -专利权人：优视科技有限公司
申请日： 2018-02-12 - 公布日： 2019-08-23 - 主分类号： G10L15/25
摘要：本发明提供一种语音输入启动方法、装置及计算机设备。该方法包括：确定用户与终端的距离在预置距离范围内；通过所述终端摄像头拍摄用户的图像；获取所述图像中的用户头像特征；判断所述头像特征是否位于所述图像中的预设位置；若是，启动所述终端的语音输入功能。该语音输入启动方法在识别到用户的特定状态时触发语音交互，用户不需要额外记忆不同应用的不同触控位置，从而使语音交互更加自然，提高用户体验。

一种将音视频数据转化成文字记录的系统和方法-201611170040.6
发明人：李纯冬 -专利权人：广州视源电子科技股份有限公司;广州视睿电子科技有限公司
申请日： 2016-12-16 - 公布日： 2019-07-16 - 主分类号： G10L15/25
摘要：本发明涉及一种将音视频数据转化成文字记录的系统和方法，其中系统包括数据收集部分、数据识别部分以及数据组织部分；所述数据收集部分包括音频采集模块和视频采集模块；所述数据识别部分包括语音和声纹识别模块以及人脸和表情识别模块；所述数据组织部分根据所述文字信息、识别的开始时间、当前说话者的身份标签、当前说话者的情绪，生成文字记录。本发明更加细致完整地保存整个音视频数据过程，更贴近真实的情况；本发明将音视频数据转换为文本格式进行保存，大大降低了存储和传输的成本，也便于后续查看记录，可以更加快速地浏览和定位会议内容。

一种口型转换口罩-201910021272.2
发明人：郭红;康光辉;李海肖;刘世恩;董双波 -专利权人：承德石油高等专科学校
申请日： 2019-01-09 - 公布日： 2019-04-02 - 主分类号： G10L15/25
摘要：本发明公开了一种口型转换口罩，包括口罩本体，微型高清摄像头、单片机、显示器和扬声器。本发明公开了一种口型转换口罩，结构简单，能够将无声的口型转化为文字和声音，从而实现哑者与说话正常人群之间的正常沟通，极大程度降低了需要学习哑语造成的时间成本和金钱成本，同时本发明携带方便，从而便于哑者随时随地与他人进行沟通。

一种游戏角色中文语音自动识别方法-201810671470.9
发明人：杨键;陈镇秋;陈汉辉;李茂;吴海权;卢歆翮;江卓浩;陈晨 -专利权人：珠海金山网络游戏科技有限公司;广州西山居世游网络科技有限公司
申请日： 2018-06-26 - 公布日： 2018-12-07 - 主分类号： G10L15/25
摘要：本发明的技术方案包括一种游戏角色中文语音自动识别方法，用于实现：对配音提取频谱数据，将频谱数据进行平滑滤波处理，利用处理后的数据算出共振峰数据，根据元音发音在共振峰上的特点提取元音发音并匹配对应元音动作，应用在游戏中，根据实际表现保持或微调语音口型动画。本发明的有益效果为：简化了游戏口型动画设计过程中重复的建立及修改过程，实现了高效率的情景对话动画的制作，并且以及实时的口型动画反馈和调整，达到良好的语音交互效果和视觉特征。

确定是否是真唱的方法和装置-201810833758.1
发明人：汤伯超 -专利权人：广州酷狗计算机科技有限公司
申请日： 2018-07-26 - 公布日： 2018-11-30 - 主分类号： G10L15/25
摘要：本公开是关于一种确定是否是真唱的方法和装置，属于电子技术领域。所述方法包括：在目标直播间执行K歌功能的过程中，获取在多个预设的播放时间点采集的直播视频帧；确定每个获取的直播视频帧中上唇位置和下唇位置之间的距离；根据每个获取的直播视频帧中上唇位置和下唇位置之间的距离，确定目标直播间是否处于主播假唱状态。采用本公开，可以通过计算机设备自动判断主播是否是假唱，判断处理的效率较高，即使直播间的数量巨大，也可以及时发现主播的违规操作。

一种基于口型识别的无声交流系统及系统和方法-201810403743.1
发明人：刘佩佩 -专利权人：深圳龙图腾创新设计有限公司
申请日： 2018-04-28 - 公布日： 2018-11-20 - 主分类号： G10L15/25
摘要：本发明公开了一种基于口型识别的无声交流方法，包括如下步骤：S1.面部识别模块对使用者面部进行扫描识别，并形成面部特征信息后将其传输给录像模块；S2.当面部特征信息匹配时，录像模块对说话者口型变化进行图像录入，并形成图像信息传输给存储模块；当面部特征信息不匹配时，录像模块不进行图像录入；一种基于口型识别的无声交流系统，包括面部识别模块、录像模块、存储模块、口型识别模块、口型转化模块、传输模块、切换模块、显示模块和音频播放模块；本发明实现无声快速交流，保证聊天隐私不被他人轻易窃取，交流过程安静无声，不会影响到他人，同时保证聊天信息的准确传达而不受外界噪声干扰。

电子皮肤在语音识别上的应用、语音识别系统和方法-201310508179.7
发明人：张珽;顾杨;熊作平;王学文;谷文 -专利权人：中国科学院苏州纳米技术与纳米仿生研究所
申请日： 2013-10-24 - 公布日： 2018-09-11 - 主分类号： G10L15/25
摘要：本发明公开了一种语音识别系统，包括：电子皮肤，所述的电子皮肤包括柔性的敏感层，所述敏感层的上表面和下表面至少之一为非平面结构，所述敏感层的上表面和下表面上分别形成有上电极层和下电极层；数据处理模块，接收来自电子皮肤的信号并将处理后的信号发送至显示模块；显示模块，接收并显示来自数据处理模块的信号。本发明的识别系统具有同步识别，识别率高，体积简小且携带方便的优点，同时由于使用柔性薄膜材料，可以方便的将本器件整合成可穿戴电子设备。

一种基于唇语识别的智能终端操控系统-201810256940.5
发明人：王凯 -专利权人：王凯
申请日： 2018-03-27 - 公布日： 2018-08-21 - 主分类号： G10L15/25
摘要：本发明公开了一种基于唇语识别的智能终端操控系统，包括使用端设备和执行端设备，其中，使用端设备包括：使用端主体1，语音接收装置2，显示界面3，视频采集装置4，信号传递介质5；执行端设备包括：控制器6，执行端主体7；在使用端设备中，语音接收装置2采集使用者语音信息，视频接收装置4采集使用者口型图像信息，识别系统可同时对语音信息进行语音识别产生语音指令和对口型图像信息进行唇语识别产生唇语指令；在执行端设备中，控制器6通过信息传递介质5接收识别系统信息，对执行端主体7进行控制；控制器6通过信息传递介质5将执行端设备周边环境信息和状态信息反馈传递到使用端设备，供使用者通过显示界面3进行实时监控。

一种基于唇语采集和语音拾取的多语言翻译器-201721368326.5
发明人：焦友明;刘念邱 -专利权人：成都铅笔科技有限公司
申请日： 2017-10-23 - 公布日： 2018-06-22 - 主分类号： G10L15/25
摘要：本实用新型公开了一种基于唇语采集和语音拾取的多语言翻译器，壳体内的内部电路的音频采集装置的音频输出端与音频输入模块的输入端连接，音频输入模块的输出端与语音识别模块的音频输入端连接，语音识别模块的语音信号输出端与微处理器的语音信号输入端连接；微处理器的显示控制信号端与显示模块的控制信号输入端连接，微处理器的图像输入端与摄像头的图像输出端连接，微处理器的语音合成控制信号输出端与语音合成模块的控制信号输入端连接，微处理器的语音播放控制信号输出端与语音播放模块的控制信号输入端连接，语音合成模块的合成语音输出端与语音播放模块的语音输入端连接。该翻译器提取语音信息和说话者的唇语信息，实时进行语音翻译。

一种基于唇语采集和语音拾取的多语言翻译器-201710993228.9
发明人：焦友明;刘念邱 -专利权人：成都铅笔科技有限公司
申请日： 2017-10-23 - 公布日： 2018-01-19 - 主分类号： G10L15/25
摘要：本发明公开了一种基于唇语采集和语音拾取的多语言翻译器，壳体内的内部电路的音频采集装置的音频输出端与音频输入模块的输入端连接，音频输入模块的输出端与语音识别模块的音频输入端连接，语音识别模块的语音信号输出端与微处理器的语音信号输入端连接；微处理器的显示控制信号端与显示模块的控制信号输入端连接，微处理器的图像输入端与摄像头的图像输出端连接，微处理器的语音合成控制信号输出端与语音合成模块的控制信号输入端连接，微处理器的语音播放控制信号输出端与语音播放模块的控制信号输入端连接，语音合成模块的合成语音输出端与语音播放模块的语音输入端连接。该翻译器提取语音信息和说话者的唇语信息，实时进行语音翻译。

语音处理装置和语音处理方法-201310144427.4
发明人：萧希群;魏守德 -专利权人：纬创资通股份有限公司
申请日： 2013-04-24 - 公布日： 2017-12-22 - 主分类号： G10L15/25
摘要：一种语音处理装置与其对应的语音处理方法。上述语音处理装置包括收音器、摄影机、以及处理器。收音器接收声音讯号。摄影机拍摄影片。处理器耦接收音器和摄影机，取得声音讯号的语音起始时间，检测影片中的人脸，检测人脸的嘴型轮廓的变动时间，并检验至少一个预设条件。在上述至少一个预设条件全部成立时，处理器对上述声音讯号进行语音识别。其中，上述的至少一个预设条件包括上述语音起始时间和上述变动时间的误差小于一临界值。

语音识别装置及游戏机-201710142423.0
发明人：佐藤纯平;长﨑良博;上甲哲士 -专利权人：环球娱乐株式会社;阿鲁策游戏香港有限公司
申请日： 2017-03-10 - 公布日： 2017-11-21 - 主分类号： G10L15/25
摘要：本发明涉及一种语音识别装置及游戏机。语音识别装置(5)具有摄像机机构(511、512)，对多个人物拍摄包含各人物的嘴部的动态图像；麦克风机构(513)，取得各人物说话的声音；及主单元(101)，基于麦克风机构(513)取得声音时由摄像机机构(511、512)拍摄到的各人物的嘴部活动，从所述多个人物中特定出说话的人物。

自适应唇语交互方法以及交互装置-201611075470.X
发明人：黄源浩;刘龙;肖振中;许星 -专利权人：深圳奥比中光科技有限公司
申请日： 2016-11-29 - 公布日： 2017-03-15 - 主分类号： G10L15/25
摘要：本发明公开了一种自适应唇语交互方法以及交互装置，自适应唇语交互方法包括获取目标人体对象的深度图像以及目标人体对象的红外图像或彩色图像；分别从深度图像以及红外图像或彩色图像中获取目标人体对象的唇部区域图像；从唇部区域图像提取唇部特征，并将从深度图像以及红外图像或从深度图像以及彩色图像中提取的唇部特征融合处理后进行唇语识别；将唇语识别的结果转化成对应的操作指令，并根据所述操作指令进行交互。上述方式，不容易受到环境如光线强弱的影响，能够有效提高图像识别的命中率，进一步提高唇语识别的命中率，最终可有效改善交互的执行率和操作准确率。

一种语音口型动画的识别方法及装置-201610823063.6
发明人：林明安;吴松城;陈军宏 -专利权人：厦门幻世网络科技有限公司
申请日： 2016-09-14 - 公布日： 2017-01-04 - 主分类号： G10L15/25
摘要：本申请公开了一种语音口型动画的识别方法和装置，用以解决现有技术无法在移动设备上实现语音台词与口型动画合成的问题。方法包括：从待识别语音中提取语音特征；将提取的所述语音特征，输入预先训练的语音口型识别模型；确定所述语音口型识别模型输出的与所述语音特征对应的口型类别；根据所述语音口型识别模型输出的口型类别，确定与所述口型类别对应的口型动画，作为所述待识别语音的口型动画。

识别语音控制用的语境的方法、求出语音控制用的语音控制信号的方法及实施该方法的设备-201610396658.8
发明人： P.德罗伊夫 -专利权人：罗伯特·博世有限公司
申请日： 2016-06-07 - 公布日： 2016-12-21 - 主分类号： G10L15/25
摘要：本发明涉及一种用于识别在车辆中针对语音控制的语境的方法。该方法包括读入关于车辆的乘员（104）的当前的视向（400）的视向信息的步骤，将所述视向信息配属给该车辆的内部空间中的观察区（403）的步骤，以便获取关于由该乘员（104）当前观察的观察区（403）的观察区信息，以及在使用所述观察区信息的情况下确定关于配属于当前被观察的观察区（403）的预先确定的语境的语境信息的步骤。

语音识别方法、装置及用户设备-201510208370.9
发明人：颜蓓 -专利权人：中兴通讯股份有限公司
申请日： 2015-04-28 - 公布日： 2016-11-23 - 主分类号： G10L15/25
摘要：本发明提供了一种语音识别方法、装置及用户设备。其中，该方法包括：采集语音信息及与语音信息相关联的视觉信息；根据视觉信息和语音信息进行语音识别。通过本发明，解决了相关技术中的语音识别技术对语音的识别率低的问题，提高了语音识别的识别率。

一种语音识别的方法及系统-201610165978.2
发明人：房少杰 -专利权人：广东小天才科技有限公司
申请日： 2016-03-21 - 公布日： 2016-08-17 - 主分类号： G10L15/25
摘要：本发明公开了一种语音识别的方法及系统。该方法，包括：一种语音识别的方法，其特征在于，包括：检测出与用户脸部的距离小于等于预置距离；识别出用户脸部的嘴型发生变化；对录取的语音进行识别。本发明能够在用户对着设备进行语音时，自动开启语音识别，对用户的语音进行识别，减少了开启的操作，提高了用户体验。

一种语音输出方法、语音输出系统-201610004434.8
发明人：张春宇;吴春芸;陈翩翩 -专利权人：昆山龙腾光电有限公司
申请日： 2016-01-06 - 公布日： 2016-06-01 - 主分类号： G10L15/25
摘要：本发明提供一种语音输出方法，所述语音输出方法包括建立唇部图像语音数据库；获取唇部图像；根据所述唇部图像语音数据库查找到获取的所述唇部图像对应的语音数据；输出所述唇部图像对应的语音。本发明还提供一种使用上述语音输出方法的语音输出系统，本发明提供的语音输出方法及语音输出系统，根据所述唇部图像语音数据库查找到获取的所述唇部图像对应的语音数据后输出语音，实现了无声到有声沟通方式，其适用性广、抗干扰性好。

一种基于动作识别及语音技术的手语和唇语互译系统-201220688601.2
发明人：陈拥权;王略志;刘思杨;胡翀豪 -专利权人：合肥寰景信息技术有限公司
申请日： 2012-12-13 - 公布日： 2013-07-17 - 主分类号： G10L15/25
摘要：本实用新型公开了一种基于动作识别及语音技术的手语和唇语互译系统，包括有壳体，壳体内设置有FPGA及DSP，壳体上设置有一对用于采集聋哑人手语动作的摄像头A和一对用于采集正常人唇语的摄像头B以及一个用于采集正常人声音的语音识别模块，两摄像头A、两摄像头B、语音识别模块分别通过信号线接入FPGA，FPGA与DSP双向通信连接，DSP分别通过I2C/SPI总线与两摄像头A、两摄像头B、语音识别模块连接，DSP还通过USB总线与上位机通讯连接，上位机外接有显示器、语音播放模块。公开了本实用新型可实现手语和唇语互译，具有很好的应用前景。

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种语音口型动画的识别方法及装置在审

专利文献下载