[发明专利]基于语音识别的3D模型控制方法、装置、设备和存储介质在审
申请号: | 202211255207.4 | 申请日: | 2022-10-13 |
公开(公告)号: | CN115565529A | 公开(公告)日: | 2023-01-03 |
发明(设计)人: | 刘扬安 | 申请(专利权)人: | 深圳壹账通智能科技有限公司 |
主分类号: | G10L15/18 | 分类号: | G10L15/18;G10L15/22;G10L15/26 |
代理公司: | 深圳市力道知识产权代理事务所(普通合伙) 44507 | 代理人: | 韦永吉 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语音 识别 模型 控制 方法 装置 设备 存储 介质 | ||
本申请提供一种基于语音识别的3D模型控制方法、装置、计算机设备及存储介质,该方法通过语音识别模型,将目标音频文件转换成至少一个识别文本集,以每一个识别文本集作为一个指令组,从而便于区分用户的指令和指令操作顺序;通过指令关键词组,对每一组的识别文本集进行关键词匹配,从而提取出每一组识别文本集中的所有目标关键词,并生成各组识别文本集对应的指令链表;然后即可根据指令链表的生成顺序,依次执行各指令链表所对应的执行操作,从而实现对3D模型的语音操作。本申请涉及人工智能技术领域,可以实现对3D模型的语音操作,避免了复杂的手动操作,使得3D模型操作的交互难度降低,提高了用户体验。
技术领域
本申请涉及人工智能技术领域,尤其涉及一种基于语音识别的3D模型控制方法、装置、设备和存储介质。
背景技术
现阶段人工智能技术发展迅速,其中语音相关的AI能力趋于成熟。通过使用这些语音能力,是可以快速、精准地识别出所说的文字,甚至对于方言、外语的兼容,也做的非常不错。这使得它可以应用的领域变得愈加宽泛。
其次随着浏览器的发展,它提供到的能力更加强大,其中推出的WebGL(一种3D绘图协议),是可以利用GPU资源在浏览器中构建3D模型,并且提供了丰富的操作方法。再加上目前3D模型成熟的市场,可以看出未来的浏览器中是会大量使用这些3D模型,来丰富网页,提高用户交互体验。不过目前操作3D模型的方式太过单一,只能通过鼠标点击,来进行互动,其对于3D模型操作的便利性较差,使得用户体验感较差。因此,如何提高3D模型的操作便利性成为了目前亟需解决的问题。
发明内容
本申请提供了一种基于语音识别的3D模型控制方法、装置、计算机设备和存储介质,旨在提高目前3D模型的操作便利性。
第一方面,本申请提供一种基于语音识别的3D模型控制方法,所述基于语音识别的3D模型控制方法包括以下步骤:
获取目标音频文件,基于语音识别模型,对所述目标音频文件进行识别,生成至少一组识别文本集;
基于指令关键词组,匹配所述识别文本集中的相似关键词,获得至少一个目标关键词,并基于所述目标关键词的获得顺序,生成指令链表;
基于所述目标关键词对应的指令含义和所述获得顺序,确定所述指令链表对应的执行指令,并基于所述执行指令,对3D模型执行对应的操作,以实现对所述3D模型的语音控制。
第二方面,本申请还提供一种基于语音识别的3D模型控制装置,所述基于语音识别的3D模型控制装置包括:
语音识别模块,用于获取目标音频文件,基于语音识别模型,对所述目标音频文件进行识别,生成至少一组识别文本集;
关键词匹配模块,用于基于指令关键词组,匹配所述识别文本集中的相似关键词,获得至少一个目标关键词,并基于所述目标关键词的获得顺序,生成指令链表;
模型操作模块,用于基于所述目标关键词对应的指令含义和所述获得顺序,确定所述指令链表对应的执行指令,并基于所述执行指令,对3D模型执行对应的操作,以实现对所述3D模型的语音控制。
第三方面,本申请还提供一种计算机设备,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如上述的基于语音识别的3D模型控制方法的步骤。
第四方面,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如上述的基于语音识别的3D模型控制方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳壹账通智能科技有限公司,未经深圳壹账通智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211255207.4/2.html,转载请声明来源钻瓜专利网。