[发明专利]语音识别系统和用于语音识别的方法有效

专利信息
申请号: 201780090477.5 申请日: 2017-11-10
公开(公告)号: CN110603583B 公开(公告)日: 2023-10-24
发明(设计)人: 堀贵明;渡部晋治;J·赫尔希 申请(专利权)人: 三菱电机株式会社
主分类号: G10L15/32 分类号: G10L15/32;G10L15/16
代理公司: 北京三友知识产权代理有限公司 11127 代理人: 刘久亮;黄纶伟
地址: 日本*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要: 语音识别系统包括接收声音的输入装置、一个或更多个处理器、以及存储参数和程序模块的一个或更多个储存装置,所述程序模块包括一个或更多个处理器可执行的指令。指令包括:从由声音转换的音频波形数据中提取声学特征序列;使用具有编码器网络参数的编码器网络将声学特征序列编码为隐藏向量序列(HVS);通过将HVS馈送到具有解码器网络参数的解码器网络来预测第一输出标签序列概率(OLSP);由联结主义时间分类(CTC)模块使用CTC网络参数和来自编码器网络的所述(HVS),来预测第二(OLSP);以及使用标签序列搜索模块,通过将从解码器网络和CTC模块提供的第一(OLSP)和第二(OLSP)组合,来搜索具有最高序列概率的输出标签序列。
搜索关键词: 语音 识别 系统 用于 方法
【主权项】:
1.一种语音识别系统,该语音识别系统包括:/n输入装置,该输入装置接收声音;/n一个或更多个处理器;以及/n一个或更多个储存装置,所述一个或更多个储存装置存储参数和程序模块,所述程序模块包含能够由所述一个或更多个处理器执行的指令,所述指令在被执行时使得所述一个或更多个处理器执行包括以下项的操作:/n使用声学特征提取模块从由声音转换的音频波形数据中提取声学特征序列;/n使用具有编码器网络参数的编码器网络将所述声学特征序列编码为隐藏向量序列;/n通过将所述隐藏向量序列馈送到具有解码器网络参数的解码器网络来预测第一输出标签序列概率;/n使用联结主义时间分类CTC网络参数和来自所述编码器网络的所述隐藏向量序列,由CTC模块来预测第二输出标签序列概率;以及/n使用标签序列搜索模块,通过将从所述解码器网络和所述CTC模块提供的所述第一输出标签序列概率和所述第二输出标签序列概率组合,来搜索具有最高序列概率的输出标签序列。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三菱电机株式会社,未经三菱电机株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201780090477.5/,转载请声明来源钻瓜专利网。

同类专利
  • 语音识别系统和用于语音识别的方法-201780090477.5
  • 堀贵明;渡部晋治;J·赫尔希 - 三菱电机株式会社
  • 2017-11-10 - 2023-10-24 - G10L15/32
  • 语音识别系统包括接收声音的输入装置、一个或更多个处理器、以及存储参数和程序模块的一个或更多个储存装置,所述程序模块包括一个或更多个处理器可执行的指令。指令包括:从由声音转换的音频波形数据中提取声学特征序列;使用具有编码器网络参数的编码器网络将声学特征序列编码为隐藏向量序列(HVS);通过将HVS馈送到具有解码器网络参数的解码器网络来预测第一输出标签序列概率(OLSP);由联结主义时间分类(CTC)模块使用CTC网络参数和来自编码器网络的所述(HVS),来预测第二(OLSP);以及使用标签序列搜索模块,通过将从解码器网络和CTC模块提供的第一(OLSP)和第二(OLSP)组合,来搜索具有最高序列概率的输出标签序列。
  • 用于语音识别的系统和方法-201780060607.0
  • Z.周;Z.冯 - 罗伯特·博世有限公司
  • 2017-09-14 - 2023-09-05 - G10L15/32
  • 用于自动化语音识别的方法包括分别使用第一通用语音识别引擎和第二特定于域的语音识别引擎生成对应于音频输入数据的第一和第二多个候选语音识别结果。所述方法还包括:生成第三多个候选语音识别结果,其包括第一多个语音识别结果中的一个中包括的多个单词和第二多个语音识别结果中的另一个中包括的至少一个单词;使用成对排序器对第三多个候选语音识别结果进行排序,以标识排序最高的候选语音识别结果;以及使用排序最高的语音识别结果作为来自用户的输入来操作自动化系统。
  • 用于高度可配置的多语言语音识别的规范训练-202180055194.3
  • 李锦宇;周龙;孙绁;刘树杰 - 微软技术许可有限责任公司
  • 2021-06-29 - 2023-06-09 - G10L15/32
  • 提供了用于构建可配置的多语言模型的实施例。一种计算系统,其获得多个因语言而异的自动语音识别模块和通用自动语音识别模块,该通用自动语音识别模块在包括与多个不同语言中的每个不同语言相对应的训练数据的多语言训练数据集上被训练。该计算系统然后编译该通用自动语音识别模块与该多个因语言而异的自动语音识别模块以生成可配置的多语言模型,该多语言模型被配置成响应于标识与音频内容相关联的一个或多个目标语言的用户输入选择性地并动态地利用该多个因语言而异的自动语音识别模块的子集与该通用自动语音识别模块来处理该音频内容。
  • 动态语音识别数据评估-201780026332.9
  • A.W.罗维特 - 微软技术许可有限责任公司
  • 2017-04-19 - 2023-03-24 - G10L15/32
  • 公开了用于从一个计算设备向另一设备提供语音识别数据的计算设备和方法。在一个公开的实施例中,音频输入在客户端设备处被接收并被处理,以生成语音识别数据。确定针对数据的一部分的估计的置信水平,其中估计的置信水平超过对应于有效结果的预定的置信阈值。标识与该数据的该部分相关联的至少一个统计上不可能的特征。基于标识统计上不可能的特征,向服务器计算设备提供该数据的一部分,以用于评估。
  • 基于同时热词触发的跨设备数据同步-202180039197.8
  • 马修·谢里菲;维克托·克尔布内 - 谷歌有限责任公司
  • 2021-10-12 - 2023-01-31 - G10L15/32
  • 本文描述了用于跨设备数据同步的技术。一种方法包括:至少部分地在第一计算设备上实行自动助理的第一实例;接收捕获口头话语的音频数据;使用机器学习模型处理该音频数据,以生成指示音频数据中存在的一个或多个热词的概率的预测输出;确定该预测输出满足阈值;响应于确定该预测输出满足阈值,执行与至少部分地实行自动助理的至少一个其他实例的至少一个其他计算设备的仲裁;以及响应于执行与至少一个其他计算设备的仲裁,发起自动助理的第一实例与自动助理的至少一个其他实例之间的用户数据或配置数据的同步。
  • 计算机系统、语音识别方法以及程序-201880099694.5
  • 菅谷俊二 - 株式会社OPTIM
  • 2018-09-27 - 2021-07-23 - G10L15/32
  • 本发明的目的在于提供一种容易提高对语音识别的识别结果的准确性的计算机系统、语音识别方法以及程序。计算机系统获取语音数据,进行获取到的所述语音数据的语音识别,利用与所述第一识别单元不同的算法或数据库来进行获取到的所述语音数据的语音识别,在各个语音识别的识别结果不同的情况下,输出双方的识别结果。此外,计算机系统获取语音数据,进行获取到的所述语音数据的语音识别,并利用相互不同的算法或数据库来进行N种方式的语音识别,仅输出以所述N种方式进行的语音识别中识别结果不同的识别结果。
  • 语音解析系统-202080002036.7
  • 关根洁 - 互动解决方案公司
  • 2020-01-06 - 2021-07-13 - G10L15/32
  • 本发明的课题是提供一种语音解析系统,其可精确度更高地进行语音识别。本发明的解决方案是一种语音解析系统,其包含第1语音解析终端和第2语音解析终端,并包含会话区段选择部,其中,第1语音解析终端获得第1会话信息,第2语音解析终端获得第2会话信息,会话区段选择部将各会话区段中的第1会话信息所包含的相关语的数量和第2会话信息所包含的相关语的数量进行比较,采用相关语的数量较多的一方的会话区段作为正确会话区段。
  • 基于对在线语音命令的使用来学习离线语音命令-201980011141.4
  • 维克拉姆·阿加尔瓦尔;莫伊赛斯·莫根施特恩·加利 - 谷歌有限责任公司
  • 2019-01-04 - 2020-09-15 - G10L15/32
  • 用于用户设备学习离线语音动作的方法、系统、装置,包括编码在计算机存储介质上的计算机程序。在一个方面中,该方法包括以下动作:在当用户设备通过网络连接到服务器时的第一时间,由用户设备检测话语;由用户设备使用网络向服务器提供该话语;由用户设备并从服务器接收对用户设备的语法的更新;在当用户设备未通过网络连接到服务器时的第二时间,由用户设备检测该话语的后续话语,以及响应于由用户设备在第二时间检测到该话语的后续话语,由用户设备基于(i)后续话语,以及(ii)更新的语法,识别执行的操作。
  • 分布式语音识别系统中的语音模型检索-201380064858.8
  • 伯乔恩·霍夫迈斯特;休·埃文·塞克-瓦尔克;杰弗瑞·科尔内留斯·奥尼尔 - 亚马逊技术有限公司
  • 2013-12-10 - 2020-06-19 - G10L15/32
  • 本发明公开用于管理自动化语音识别系统中的语音识别模型和数据的使用的特征。在被接收到的时候或在话语开始用更通用或不同的模型进行处理之后,模型和数据可被异步检索和使用。一旦被接收到,所述模型和统计数据便可被高速缓存。更新模型和数据所需的统计数据也可被异步检索,从而可以在可用的时候用来更新所述模型和数据。所述经更新的模型和数据可以立即用来再处理话语,或经保存用于处理随后接收的话语。可跟踪用户与所述自动化语音识别系统的交互,以便预测用户可能会使用所述系统的时间。模型和数据可以基于此类预测进行预先高速缓存。
  • 具有多个同时语音识别器的系统-201480043399.X
  • C·克莱因;D·穆尼二世;T·索米欧;L·宋;J·惠勒 - 微软技术许可有限责任公司
  • 2014-07-30 - 2020-05-05 - G10L15/32
  • 语音识别系统解释说出的系统命令以及应用命令两者。用户可以向计算设备的开放式话筒说出可由同时操作的至少两个语音识别器解释的命令。第一语音识别器解释操作系统命令,而第二语音识别器解释应用命令。系统命令可至少包括打开和关闭应用,而应用命令可至少包括游戏命令或菜单内导航。可使用保留词来标识命令是针对操作系统还是应用的。用户的节奏也可指示语音是全局命令还是应用命令。语音识别器可包括位于远程计算设备中(诸如在所谓的云中)的自然语言软件组件。
  • 具有语音命令输入能力的装置-201880045561.X
  • 塔伦·塔姆 - 艾柯比有限公司
  • 2018-05-09 - 2020-03-17 - G10L15/32
  • 具有远程处理的语音命令能力的计算机化装置包括低功率处理器,其执行松散算法模型以识别语音命令中的唤醒词前缀,该松散模型具有低错误拒绝率但受到高错误接受率,以及至少可以在低功率/低时钟速率模式和高功率/高时钟速率模式下操作的第二处理器。当第一处理器确定唤醒词的存在时,其引起第二处理器切换到高功率/高时钟速率模式并执行严格算法模型以验证唤醒词的存在。通过以这种方式使用两个处理器,降低了计算机化装置所需的平均总体功率,以及系统生成的废热量。
  • 外源性大词汇量模型到基于规则的语音识别的合并-201580004735.4
  • T·威尔逊;S·夸齐;J·维孔多阿;P·法特普里亚 - 微软技术许可有限责任公司
  • 2015-01-12 - 2019-11-05 - G10L15/32
  • 提供了外源性大词汇量模型到基于规则的语音识别的合并。音频流由本地小词汇量、基于规则的语音识别系统(SVSRS)接收,并被传输至大词汇量的、基于统计模型的语音识别系统(LVSRS)。SVSRS和LVSRS对音频执行识别。如果一部分音频没有被SVSRS识别,则触发这样的规则:将标记插入到识别结果中。将该识别结果发送至LVSRS。如果检测到标记,则对音频的指定的一部分执行识别。LVSRS结果与SVSRS结果进行统一并作为混合响应发送回SVSRS。如果没有触发混合识别规则,则唤起仲裁算法来确定是SVSRS识别还是LVSRS识别具有更小的词语错误率。将所确定的识别作为响应发送至SVSRS。
  • 多识别器语音识别-201480027534.1
  • 彼塔尔·阿列克西克;佩德罗·J·莫雷诺门希瓦尔;法迪·比亚德希 - 谷歌有限责任公司
  • 2014-04-18 - 2019-10-29 - G10L15/32
  • 本说明书的主题可具体体现为方法等,该方法包括接收与发声相对应的音频数据,获得使用有限语音识别器所产生的发声的第一转录。有限语音识别器包括包含通过有限语音识别词汇所训练的语言模型的语音识别器,所述有限语音识别词汇包括来自语音命令语法的一个或多个项,但包括比扩展语法的所有项少。获得使用扩展语音识别器所产生的发声的第二转录。扩展语音识别器包括包含通过扩展语音识别词汇所训练的语言模型的语音识别器,所述扩展语音识别词汇包括扩展语法的所有项。至少基于第一转录或第二转录的一部分来对发声进行分类。
  • 语音识别系统以及语音识别装置-201380073708.3
  • 小川勇;花泽利行;成田知宏 - 三菱电机株式会社
  • 2013-11-20 - 2018-11-20 - G10L15/32
  • 具有:识别结果候选比较部(205),其对接收部(204)接收到的多个服务器侧语音识别结果候选进行比较,检测有差异的文本;识别结果综合部(206),其根据客户端侧语音识别结果候选、服务器侧语音识别结果候选以及识别结果候选比较部(205)的检测结果,综合客户端侧语音识别结果候选和服务器侧语音识别结果候选,确定语音识别结果。
  • 将来自各种语音服务的结果表示为统一概念知识库-201680080451.8
  • M·N·A·乔治斯;F·E·A·奈特恩;J·D·阿纳斯塔西亚迪斯;O·本德尔;J·M·德克罗斯 - 纽昂斯通讯公司
  • 2016-05-31 - 2018-10-23 - G10L15/32
  • 描述了用于处理来自多个语音服务的结果的系统和方法。一种方法包括:接收来自多个语音服务的语音服务结果和与语音服务结果对应的服务规范。结果为表示根据语音服务的功能的信息的至少一种数据结构。服务规范描述数据结构及针对各语音服务该数据结构的解释。基于服务规范将语音服务结果编码成结果的统一概念知识表示。向应用模块提供统一概念知识表示。方法包括:评估从多个语音服务异步接收的语音服务结果,以基于可靠性测度来确定所接收的语音服务结果中是否存在可靠结果。如果存在可靠结果,则将可靠结果提供给应用模块;否则,方法继续评估所接收的语音服务结果。
  • 多遍车辆语音识别系统和方法-201380043053.5
  • S·M·帕娜因特;D·J·休斯 - 威斯通全球技术公司
  • 2013-06-21 - 2018-06-15 - G10L15/32
  • 用于车辆的语音识别系统包括用于接收来自用户的话语的麦克风。所述系统还包括存储器,所述存储器具有用于语音识别的命令或名称的部分集合。所述存储器还包括用于语音识的命令或名称的较大集合。所述系统还包括与所述麦克风和所述存储器通信的处理电子器件。所述处理电子器件被配置为处理所接收到的话语以获得话语数据。所述处理电子器件进一步被配置为使用所获得的语音数据以进行至少两遍语音识别。在第一遍中,将话语数据与部分集合进行比较。在第二遍中,将话语数据与较大集合进行比较。 1
  • 机动车中的语音识别-201380053806.0
  • G·格吕沙尔斯基;T·坎切瓦 - 奥迪股份公司;大众股份公司
  • 2013-05-18 - 2017-06-06 - G10L15/32
  • 本发明涉及一种用于在机动车(10)中进行语音识别的方法。接收用户(22)的语音输入(26),在不向用户(22)提出询问的情况下将至少一个所接收的语音输入传输给车辆内部的车载‑语音识别器(46)。由此产生第一识别结果(48),但该第一识别结果并不总是正确的,因此需要询问用户或由用户作出校正。本发明的目的在于,在机动车(10)中提供可靠的语音识别,其使得机动车中的用户尽可能少地从交通现状中分心。为此,由处理装置(32)将语音输入(54)全部或部分地也传输给车辆外部的非车载‑语音识别器(12),并由处理装置(32)从该非车载‑语音识别器接收第二识别结果(56),由处理装置(32)根据第一识别结果(48)和第二识别结果(56)确定语言文本(34)。
  • 用于产生控制命令的方法和系统-201480069564.9
  • W·哈伯尔;K·科纳贝尔 - 宝马股份公司
  • 2014-12-19 - 2016-08-03 - G10L15/32
  • 本发明涉及一种用于由口头表达产生控制命令(B)的方法,该口头表达包含自由措辞和使用者特定的术语,该方法包括如下步骤:a)通过记录装置(11)将包括多个单词(W)的语音命令记录(1)为音频数据流;b)通过网络(20)发送(2)音频数据流给第一语音识别装置(31);c)由第一语音识别装置(31)接收(5)至少一个数据包,其中,所述数据包包含如下信息(I):哪些单词(W)在音频数据流中未被识别出;d)通过第二语音识别装置(16)在使用至少一个数据库的情况下至少部分识别(7)未被第一语音识别装置(31)识别的单词(W);e)将第一语音识别装置(31)和第二语音识别装置(16)的结果组合(8)为控制命令(B);以及f)输出控制命令(B)。
  • 语音识别装置和语音识别方法-201380074221.7
  • 花泽利行 - 三菱电机株式会社
  • 2013-03-06 - 2015-10-28 - G10L15/32
  • 语音识别装置(1)在内部识别部(7)中,对输入语音(2)的语音数据(4)进行使用了声学模型(9)的识别处理,求出内部识别结果(10)和声学似然度。读音赋予部(12)取得由外部识别部(19)对输入语音(2)的语音数据(4)进行识别处理后的外部识别结果(11),对该语音数据(4)赋予读音,重新对照部(15)使用声学模型(9),求出外部识别结果(11)的声学似然度,作为重新对照结果(16)。结果确定部(17)对内部识别结果(10)的声学似然度、和重新对照结果(16)所包含的外部识别结果(11)的声学似然度进行比较,确定最终识别结果(18)。
  • 声音识别装置-201380019801.6
  • 山室庆太;冈登洋平 - 三菱电机株式会社
  • 2013-11-29 - 2015-08-05 - G10L15/32
  • 本发明的声音识别装置包括:声音识别部(2),该声音识别部(2)由能识别预先确定的字串的第一识别引擎、及能识别所述字串的一部分的第二识别引擎构成;以及判定部(4),该判定部(4)基于作为第一及第二识别引擎(2a、2b)的声音识别的识别结果的、第一及第二识别结果候选的时间长度之差,来从第一及第二识别结果候选中采用一个或多个可能的识别结果候选。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top