[发明专利]神经语音到意思在审
| 申请号: | 202011401199.0 | 申请日: | 2020-12-03 |
| 公开(公告)号: | CN113012686A | 公开(公告)日: | 2021-06-22 |
| 发明(设计)人: | 阚德顺;韦美曦;普仲朗 | 申请(专利权)人: | 声音猎手公司 |
| 主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/22;G10L15/26 |
| 代理公司: | 北京东方亿思知识产权代理有限责任公司 11258 | 代理人: | 姜飞 |
| 地址: | 美国加利*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 神经 语音 意思 | ||
1.一种用于识别语音音频中的意图的机器,该机器包括:
变量识别器,该变量识别器处理语音音频特征,计算所述语音音频具有多个枚举变量值中的任何一者的概率,并且输出具有最高概率的变量值;以及
意图识别器,该意图识别器处理语音音频特征,计算所述语音音频具有所述意图的概率,并响应于所述语音音频具有所述意图的概率高于意图阈值而产生对虚拟助手动作的请求。
2.根据权利要求1所述的机器,其中:
所述变量识别器指示所述语音音频具有枚举变量值的概率;并且
所述意图识别器根据所述语音音频具有枚举变量值的概率来调节其对动作的请求的输出。
3.根据权利要求2所述的机器,其中,所述调节基于关于所述语音音频具有枚举变量值的概率的经延迟的指示。
4.根据权利要求1所述的机器,其中,所述意图识别器基于哪个变量值具有所述最高概率来调节其对动作的请求的输出。
5.根据权利要求4所述的机器,其中,所述调节基于关于哪个变量值具有所述最高概率的经延迟的指示。
6.根据权利要求1所述的机器,其中,所述变量识别器和所述意图识别器中的一个识别器产生得分,并且另一个识别器响应于所述得分高于得分阈值而被调用。
7.根据权利要求1所述的机器,还包括领域识别器,该领域识别器处理语音音频特征并计算所述语音音频涉及特定领域的概率,其中所述意图识别器与所述领域相关联,并且响应于所述语音音频涉及特定领域的概率高于领域阈值而被调用。
8.根据权利要求1所述的机器,其中,没有计算人类可读的语音转录。
9.根据权利要求1所述的机器,还包括具有访问web API能力的网络客户端,其中,响应于所述意图识别器产生对虚拟助手动作的请求,所述网络客户端执行对所述web API的请求,所述请求以所述变量识别器输出的所述变量值作为自变量。
10.如权利要求9所述的机器,还包括语音合成引擎,其中,响应于从所述web API接收到响应,所述语音合成引擎合成包含来自所述web API响应的信息的语音音频,并为所述虚拟助手的用户输出合成的语音音频。
11.一种通过计算机系统从语音音频中识别意图的方法,该方法包括:
获得语音音频;
处理所述语音音频的特征以计算所述语音音频具有多个枚举变量值中的任何一者的概率;
输出具有最高概率的变量值;
处理所述语音音频的特征以计算所述语音音频具有所述意图的概率;并且
响应于所述语音音频具有所述意图的概率高于意图阈值,而输出对虚拟助手动作的请求。
12.根据权利要求11所述的方法,其中,输出所述请求是基于具有所述最高概率的所述变量值的概率来调节的。
13.根据权利要求12所述的方法,其中,所述概率被延迟。
14.根据权利要求11所述的方法,其中,输出所述请求是基于哪个变量值具有所述最高概率来调节的。
15.根据权利要求14所述的方法,其中,对所述变量值的指示被延迟。
16.根据权利要求11所述的方法,其中,概率计算中的一者响应于另一概率计算具有高于阈值的结果而被执行。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于声音猎手公司,未经声音猎手公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011401199.0/1.html,转载请声明来源钻瓜专利网。





