[发明专利]基于全息成像和语音识别的交互三维立体影像系统及方法有效
申请号: | 201710137312.0 | 申请日: | 2017-03-09 |
公开(公告)号: | CN106713899B | 公开(公告)日: | 2017-12-19 |
发明(设计)人: | 燕小成;吕蕾;吴艳娜;周栋梁 | 申请(专利权)人: | 山东师范大学 |
主分类号: | H04N13/02 | 分类号: | H04N13/02;H04N13/04;G06F3/01;G06F17/30;G10L15/22;G10L15/26 |
代理公司: | 济南圣达知识产权代理有限公司37221 | 代理人: | 张勇 |
地址: | 250014 *** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 全息 成像 语音 识别 交互 三维立体 影像 系统 方法 | ||
技术领域
本发明涉及立体影像技术领域,特别是涉及基于全息成像和语音识别的交互三维立体影像系统及方法。
背景技术
360°全息成像技术(360-degree holographic imaging)是一种新兴的3D技术,也可简单称为全息或360全息。此技术根据光的反射原理,配合人眼的视觉误差,进行集成制作出多角度、全方位的360°立体悬浮影像。可将成像独立展示,也可与实物相结合。
目前,以360°全息成像技术(360-degree holographic imaging)为基础的360°全息成像系统主要由光学成像系统、计算机控制系统、影视播放系统和音响系统组成。就国内发展状况看,360°全息成像系统应用场景只是进行科技展览(科技馆的展示),并未得到大量的实际应用。可进行人机交互的360°全息成像系统也不存在。
语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。一个完整的语音识别系统包括特征提取、声学模型、语言模型、搜索算法等模块。语音识别系统本质上是一种多维模式识别系统,对于不同的语音识别系统,人们所采用的具体识别方法及技术不同,但其基本原理都是相同的,即将采集到的语音信号送到特征提取模块处理,将所得到的语音特征参数送入模型库模块,由声音模式匹配模块根据模型库对该段语音进行识别,最后得出识别结果。当前的语音识别在模型库进行匹配时,现有的搜索算法为利用语音学与语言学信息,把输入的语音特征向量序列X=X1,X2,……,XT转化成词序列W=W1,W2,…,WN并输出。
现有的360°全息成像系统和语音识别技术存在以下缺点:
1、360°全息成像系统无法实现人机交互。
2、360°全息成像系统需要用户自主处理适合360°全息成像系统的视频源。
3. 360°全息成像系统的语音识别精度不佳。
综上所述,现有技术中对于360°全息成像系统所存在的人机交互及使用不便等的问题,尚缺乏有效的解决方案。
发明内容
为了解决现有技术的不足,本发明提供了基于全息成像和语音识别的交互三维立体影像系统,将语音识别应用于360°全息成像系统以达到人机交互的目的。开发相关配套软件,对语音识别与360°全息成像系统进行实时控制,并能自动处理适合360°全息成像系统的视频源。采用“定向使用人群”的语音识别技术来提高语音识别的精准度。
基于全息成像和语音识别的交互三维立体影像系统,包括计算机控制系统、影像播放与音响系统及光学成像系统,所述计算机控制系统分别与影像播放与音响系统及光学成像系统相连,所述影像播放与音响系统用于画面与声音的输出,所述光学成像系统用于实现三维立体画面的展示,所述计算机控制系统包括语音识别模块,所述语音识别模块包括数据库,通过对输入的用户语音信息与数据库进行匹配,实现对用户的人群定向识别。
进一步的,所述数据库包括第一数据库及第二数据库,所述第一数据库为人群定向数据库,该数据库包括高频专业词汇,以便对使用者进行人群定向,所述第二数据库包括定向人群的专业用语和常用语。
进一步的,所述语音识别模块在实现语音识别时具体为:自动收集用户语音信息,将收集的用户语音信息与人群定向数据库进行匹配,对用户进行人群定向,该定向结果为人群的行业,通过对人群定向的正确性进行检测直至符合要求为止。
进一步的,计算机控制系统对人群定向的正确性进行检测的方法为:计算机控制系统在对人群定向后,(用户在使用本产品时)计算机控制系统依然自动收集用户语音信息,并依据当前人群定向结果(该定向结果为人群的行业)继续与第一数据库进行反向匹配(即根据人群定向结果匹配专业高频词汇)得到反向匹配结果(该结果为专业高频词汇),如果用户语音信息与反向匹配结果误差小于等于设定值(例如10%),计算机控制系统则认为人群定向正确。
进一步的,计算机控制系统根据人群定向的结果,进一步从第二数据库即定向人群专业用语和常用语数据库进行搜索得到最终结果,该结果为符合定向人群的专业用语和常用语。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东师范大学,未经山东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710137312.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:三镜头全景3D相机
- 下一篇:一种显示器的HDR图像显示性能评测方法及装置