[发明专利]基于语音识别的3D模型控制方法、装置、设备和存储介质在审

申请号：	202211255207.4	申请日：	2022-10-13
公开（公告）号：	CN115565529A	公开（公告）日：	2023-01-03
发明（设计）人：	刘扬安	申请（专利权）人：	深圳壹账通智能科技有限公司
主分类号：	G10L15/18	分类号：	G10L15/18;G10L15/22;G10L15/26
代理公司：	深圳市力道知识产权代理事务所(普通合伙) 44507	代理人：	韦永吉
地址：	518000 广东省深圳市***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于语音识别模型控制方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供一种基于语音识别的3D模型控制方法、装置、计算机设备及存储介质，该方法通过语音识别模型，将目标音频文件转换成至少一个识别文本集，以每一个识别文本集作为一个指令组，从而便于区分用户的指令和指令操作顺序；通过指令关键词组，对每一组的识别文本集进行关键词匹配，从而提取出每一组识别文本集中的所有目标关键词，并生成各组识别文本集对应的指令链表；然后即可根据指令链表的生成顺序，依次执行各指令链表所对应的执行操作，从而实现对3D模型的语音操作。本申请涉及人工智能技术领域，可以实现对3D模型的语音操作，避免了复杂的手动操作，使得3D模型操作的交互难度降低，提高了用户体验。

技术领域

本申请涉及人工智能技术领域，尤其涉及一种基于语音识别的3D模型控制方法、装置、设备和存储介质。

背景技术

现阶段人工智能技术发展迅速，其中语音相关的AI能力趋于成熟。通过使用这些语音能力，是可以快速、精准地识别出所说的文字，甚至对于方言、外语的兼容，也做的非常不错。这使得它可以应用的领域变得愈加宽泛。

其次随着浏览器的发展，它提供到的能力更加强大，其中推出的WebGL(一种3D绘图协议)，是可以利用GPU资源在浏览器中构建3D模型，并且提供了丰富的操作方法。再加上目前3D模型成熟的市场，可以看出未来的浏览器中是会大量使用这些3D模型，来丰富网页，提高用户交互体验。不过目前操作3D模型的方式太过单一，只能通过鼠标点击，来进行互动，其对于3D模型操作的便利性较差，使得用户体验感较差。因此，如何提高3D模型的操作便利性成为了目前亟需解决的问题。

发明内容

本申请提供了一种基于语音识别的3D模型控制方法、装置、计算机设备和存储介质，旨在提高目前3D模型的操作便利性。

第一方面，本申请提供一种基于语音识别的3D模型控制方法，所述基于语音识别的3D模型控制方法包括以下步骤：

获取目标音频文件，基于语音识别模型，对所述目标音频文件进行识别，生成至少一组识别文本集；

基于指令关键词组，匹配所述识别文本集中的相似关键词，获得至少一个目标关键词，并基于所述目标关键词的获得顺序，生成指令链表；

基于所述目标关键词对应的指令含义和所述获得顺序，确定所述指令链表对应的执行指令，并基于所述执行指令，对3D模型执行对应的操作，以实现对所述3D模型的语音控制。

第二方面，本申请还提供一种基于语音识别的3D模型控制装置，所述基于语音识别的3D模型控制装置包括：

语音识别模块，用于获取目标音频文件，基于语音识别模型，对所述目标音频文件进行识别，生成至少一组识别文本集；

关键词匹配模块，用于基于指令关键词组，匹配所述识别文本集中的相似关键词，获得至少一个目标关键词，并基于所述目标关键词的获得顺序，生成指令链表；

模型操作模块，用于基于所述目标关键词对应的指令含义和所述获得顺序，确定所述指令链表对应的执行指令，并基于所述执行指令，对3D模型执行对应的操作，以实现对所述3D模型的语音控制。

第三方面，本申请还提供一种计算机设备，所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如上述的基于语音识别的3D模型控制方法的步骤。

第四方面，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如上述的基于语音识别的3D模型控制方法的步骤。