[发明专利]用于调用自动助理的动态和/或场境特定热词在审
申请号: | 201880094453.1 | 申请日: | 2018-08-21 |
公开(公告)号: | CN112292724A | 公开(公告)日: | 2021-01-29 |
发明(设计)人: | 迭戈·米伦多·卡萨多 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G10L15/183 | 分类号: | G10L15/183 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 李宝泉;任庆威 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 调用 自动 助理 动态 特定 | ||
本文描述了使得能够使用“动态”或“场境特定的”热词来调用自动助理的技术。在各种实施方式中,可以至少部分在用户的一个或多个计算设备上执行在默认收听状态下的自动助理。当处于默认收听状态时,可以对由一个或多个麦克风捕获的音频数据监视默认热词。检测到默认热词,使自动助理转换到语音识别状态。可以检测和分析由与计算设备集成在一起的硬件传感器所生成的传感器信号,以确定用户的属性。基于该分析,自动助理可以转换到增强的收听状态,在该状态中可以对音频数据监视增强的热词。检测到增强的热词在无需检测到默认热词的情况下触发自动助理执行响应动作。
背景技术
人们可以参与和在此称为“自动助理”(也称为“聊天机器人”、“交互式个人助理”、“智能个人助理”、“个人语音助理”、“会话代理”、“虚拟助理”等)的人机对话。例如,人类(其当他们与自动助理交互时可以称为“用户”)可以使用自由形式的自然语言输入来提供命令、查询和/或请求(本文被统称为“查询”),其中自由形式的自然语言输入可以包括被转换成文本然后被处理的有声话语和/或键入的自由形式的自然语言输入。
在许多情况下,在自动助理可以解释并响应用户的请求之前,它必须首先例如使用通常被称为“热词”或“唤醒词”的预定义口头调用短语来被“调用”。因此,许多自动助理在本文中称为“有限的热词收听状态”或“默认收听状态”下操作,在该状态下,它们总是“收听”由麦克风针对有限(或受限,或者“默认”)的热词集采样的音频数据。音频数据中捕获的除了默认的热词集以外的任何话语都将被忽略。一旦用默认的热词集中的一个或多个热词调用了自动助理,它就可以在此处称为“语音识别状态”的状态下操作,其中在调用之后的至少一些时间间隔内,自动助理对于由麦克风采样的音频数据进行语音到文本(“STT”)处理以生成文本输入,继而对该文本输入进行语义处理以确定用户的意图(并实现该意图)。
在默认收听状态下操作自动助理提供了多种好处。限制被“收听”的热词的数量可以节省功率和/或计算资源。例如,可以训练设备上机器学习模型以生成指示何时检测到一个或多个热词的输出。实施这样的模型可能仅需要最少的计算资源和/或功率,其对于经常受到资源限制的助理设备尤其有用。在客户端设备上本地存储这样的训练模型还提供了与隐私有关的优点。例如,大多数用户不希望在运行自动助理的计算设备的听力能力范围内对他们说的一切执行STT处理。另外,设备上模型还防止将指示不打算由自动助理处理的用户话语的数据提供给通常至少部分在云上运行的语义处理器。
除了这些优点之外,在有限的热词收听状态下操作自动助理也带来了各种挑战。为了避免无意中调用自动助理,通常将热词选择为在日常对话中不经常说出的单词或短语(例如“长尾”单词或短语)。但是,存在其中要求用户在调用自动助理执行某些操作之前说出长尾热词可能会很麻烦的各种情况。一些自动助理可以在用户说出命令之后提供用于“连续收听”模式的选项,从而用户在执行后续命令之前不需要用热词“重新唤醒”自动助理。但是,将自动助理转换到连续收听模式意味着自动助理可能正在对于多得多话语执行多得多的STT处理,从而可能浪费功率和/或计算资源。另外,并且如上所述,大多数用户更喜欢仅提交给(addressed to)自动助理的话语被STT处理。
发明内容
本文描述了用于使自动助理能够使用“动态”热词的技术。在各种情况下,配置有本公开的所选方面的自动助理可以更智能地收听场境特定热词,有时体现在本文中称为“增强”的热词集中。在各种实施方式中,补充或代替用于调用自动助理的默认热词,自动助理可以收听这些场境特定热词。换句话说,在各种实施方式中,配置有本公开的所选方面的自动助理可以在某些情况下至少暂时地扩展或改变其热词词汇。
在各种实施方式中,可以在各种不同的情况下选择性地启用动态热词,诸如用户足够接近助理设备,或者基于用户的外观、语音和/或其它识别特性来识别用户。这些其它识别特性可能包括,例如,RFID徽章、视觉标记、制服、才华(a piece of flair)、用户的身材(这可能指示用户是成年人)、可能影响用户口头交流和/或经由常规用户输入(例如,鼠标、触摸屏等)交流的能力的身体障碍等等。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880094453.1/2.html,转载请声明来源钻瓜专利网。