[发明专利]用于自动语音识别的字词网格扩增在审
申请号: | 201980094165.0 | 申请日: | 2019-06-27 |
公开(公告)号: | CN113614825A | 公开(公告)日: | 2021-11-05 |
发明(设计)人: | 列昂尼德·韦利科维奇;彼塔尔·阿列克西克;佩德罗·莫雷诺 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G10L15/08 | 分类号: | G10L15/08;G10L15/193;G10L15/187;G10L15/18 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 李宝泉;周亚荣 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 自动 语音 识别 字词 网格 扩增 | ||
公开了能够确定捕获的音频数据中的命名实体的文本表示的语音处理技术。各种实施方式包括确定载体短语在捕获的音频数据的字词网格表示中的位置,其中该载体短语提供命名实体的指示。附加或替代的实施方式包括将候选命名实体与一部分字词网格相匹配,并用相匹配的候选命名实体扩增字词网格。
背景技术
自动语音识别(ASR)技术将自然语言输入转换成文本。例如,可以将使用麦克风捕获的音频数据转换成文本。ASR系统可以包括第一通解码器部分和第二通重评分器部分,该第一通解码器部分搜遍假设空间并产生捕获的音频数据的候选识别集合,该第二通重评分器部分从候选识别集合中选择生成的文本。
人们可以使用交互式软件应用参与人机对话,在本文中,这些交互式软件应用被称为“自动助理”(又称为“数字代理”、“聊天机器人”、“交互式个人助理”、“智能个人助理”、“助理应用”、“会话代理”等)。例如,人们(他们与自动助理进行交互时可以被称为“用户”)可以使用口头自然语言输入(即,话语)向自动助理提供命令和/或请求,在一些情况下,可以将该口头自然语言输入转换成文本(例如,使用ASR技术转换成文本),然后进行处理。
发明内容
本文所述实施方式是针对确定包含上下文相关命名实体的捕获的音频数据的文本表示。命名实体(NE)可以包括一个或多个地点、事件、人物和/或附加实体。在许多实施方式中,命名实体引擎可用于扩增由ASR引擎的第一通解码器部分生成的捕获的音频数据的候选识别。ASR系统可以包括第一通解码器和第二通重评分器。第一通解码器可以确定捕获的音频的候选识别集合。在许多实施方式中,该候选识别集合可以表示为字词网格(即,包含捕获的音频数据的候选识别的无环图)。第二通重评分器可以选择候选识别作为捕获的音频数据的文本表示。根据本文描述的实施方式的NE引擎可以用于基于由第一通解码器生成的字词网格来确定上下文相关命名实体的附加或替代候选识别。在许多实施方式中,NE引擎可以处理上下文相关命名实体的替代候选识别以确定在音频数据中捕获的替代候选识别的似然率。类似地,第二通重评分器可以处理使用第一通解码器生成的候选识别集合以确定在音频数据中捕获的候选识别集合的似然率。可以选择最似然的识别作为对应于捕获的音频数据的文本。在许多实施方式中,NE引擎和第二通重评分器可以并行处理使用第一通解码器生成的字词网格。附加地或替代地,NE引擎可以在第二通重评分器之前或第二通重评分器之后处理字词网格。
第一通解码器通常擅长识别可以指示附近存在NE的常用字词。当第一通解码器无法识别NE时,它们很可能将该NE误认为成发音上接近的字词序列。例如,用户可能说出“Please play Wall-E on my TV(请在我的电视机上播放Wall-E)”。ASR解码器有可能正确识别出“please play”和“on my TV”。在许多实施方式中,解码器未能识别出NE“Wall-E”,而是可能提议发音上接近的候选识别“Wally”。命名实体引擎可以利用ASR系统的这些属性来用附加和/或替代候选识别扩增字词网格。在许多实施方式中,NE引擎可以标识扩增位置,该扩增位置是ASR字词网格中有可能基于载体短语来标识NE的跨度。载体短语是指示NE的可能性的一序列字词和/或占位符非终结令牌。命名实体类型可以包括:歌曲、联系人、播放列表、地点、日历事件、软件应用和/或附加命名实体类型。例如,字词网格的子路径可以被其左边的开始标签(opening tag)(例如,song)与其右边的结束标签(closing tag)(例如,/song)包围,除了其未标注副本之外。譬如,捕获的音频数据可以包括“pleaseplay‘hypothetical movie title(假设的电影片名)’”。载体短语“play”提供NE“hypothetical movie title”的指示。覆盖短语“hypothetical movie title”的时间间隔可以被标识为扩增位置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980094165.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于波长转换装置的耐高温反射层
- 下一篇:润滑油组合物及其制造方法