[发明专利]热词辨识和被动辅助在审
申请号: | 201880096300.0 | 申请日: | 2018-08-09 |
公开(公告)号: | CN112513978A | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 扬·奥尔索斯;马修·谢里菲 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;H04M1/27;G06F3/16;G10L15/08;G10L17/00 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 李宝泉;任庆威 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 辨识 被动 辅助 | ||
公开了用于实现热词辨识和被动辅助的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。在一个方面中,一种方法包括由计算设备接收与话语相对应的音频数据的动作,该计算设备正在低功率模式下操作并且包括在计算设备处于低功率模式时显示图形界面的显示器并且被配置成响应于检测到第一热词而退出低功率模式。该方法进一步包括确定音频数据包括第二不同的热词。该方法进一步包括通过对音频数据执行语音辨识来获得话语的转录。该方法进一步包括生成附加用户界面。该方法进一步包括提供附加图形界面以在显示器上输出。
技术领域
本说明书总体涉及自动语音辨识。
背景技术
启用语音的家庭或其他环境——即,用户只需要大声讲出查询或命令而基于计算机的系统将应对(field)并回答查询和/或使命令被执行的环境——的现实已来临。能够使用分布在环境的各个房间或区域中的连接麦克风设备的网络来实现启用语音的环境(例如,家庭、工作场所、学校等)。通过这样的麦克风网络,用户具有从环境中基本上任何地方口头查询系统而无需在他/她面前或甚至附近具有计算机或其他设备的能力。例如,当在厨房里烹饪时,用户可能直接问系统“how many milliliters in three cups?(三杯里有多少毫升?)”,并且作为响应,接收来自系统的答案,例如形式为合成话音输出。或者,用户可能问系统诸如“when does my nearest gas station close(我最近的加油站什么时候关闭)”的问题,或者在准备离开房子时,问“should I wear a coat today?(我今天应该穿外套吗?)”
另外,用户可以问系统的查询,并且/或者发出与用户的个人信息有关的命令。例如,用户可能问系统“when is my meeting with John?(我何时与John见面?)”或者命令系统“remind me to call John when I get back home(在我回家时提醒我给John打电话)”。
发明内容
对于启用语音的系统,用户与系统交互的方式被设计为主要是而不排他地借助于话音输入。因此,潜在地获取在周围环境中做出的所有话语(包括不针对系统的那些话语)的系统必须具有鉴别任何给定话语何时指向系统而不是例如指向存在于环境中的个人的某种方式。一种实现这个的方式是使用热词,该热词经环境中用户同意被保留为预定词,该预定词被讲出以引起系统的注意。在示例环境中,用于引起系统的注意的热词是词“OKcomputer(好的计算机)”。因此,每当词“OK computer”被讲出时,它被麦克风获取,传达到系统,该系统可以执行语音辨识技术或者使用音频特征和神经网络来确定是否讲出了热词,并且如果是这样的话,等待随后的命令或查询。因此,指向系统的话语采用一般格式[热词][查询],其中此示例中的“热词”是“OK computer”并且“查询”可以是任何问题、命令、声明、或可以由系统单独或经由网络结合服务器语音辨识、解析和作用于的其他请求。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880096300.0/2.html,转载请声明来源钻瓜专利网。