[发明专利]语音识别方法和设备在审

专利信息
申请号: 201811000407.9 申请日: 2018-08-30
公开(公告)号: CN110875039A 公开(公告)日: 2020-03-10
发明(设计)人: 薛少飞 申请(专利权)人: 阿里巴巴集团控股有限公司
主分类号: G10L15/187 分类号: G10L15/187;G10L15/26;G10L15/34
代理公司: 北京三友知识产权代理有限公司 11127 代理人: 李辉;徐焕
地址: 英属开曼*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要: 本申请提供了一种语音识别方法和设备,其中,该方法包括:获取语音数据;通过多个方言语音识别模型组件对所述语音数据并行进行识别,得到用于多个语言方言的识别结果和置信度值;通过场景相关度判别模型,确定用于多个语言方言的识别结果属于目标场景的相关度值;对置信度和相关度进行融合判断,确定所述语音数据的方言识别结果。本申请的方案通过方言确定和场景确定相融合的方式,从而提升了方言确定的准确性,解决了现有的先进行识别模型的选择而导致的如果识别模型选择错误,将会导致后续的语音识别结果都会出错的问题,达到了有效提升语音识别结果准确性的技术效果。
搜索关键词: 语音 识别 方法 设备
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201811000407.9/,转载请声明来源钻瓜专利网。

同类专利
  • 一种目标语言模型确定方法及装置-202310582619.7
  • 魏子轩;徐媛媛;周剑;楚建霞 - 苏州科帕特信息科技有限公司
  • 2023-05-23 - 2023-08-15 - G10L15/187
  • 本发明提供一种目标语言模型确定方法及装置,涉及语音识别技术领域。该目标语言模型确定装置,包括中央处理器、语音获取模块、训练模块和数据库,中央处理器后端固定连接有转换模块,转换模块后端固定连接有提取模块,提取模块后端固定连接有确定模块,语音获取模块后端固定连接有语言识别模块和音色识别模块,语言识别模块和音色识别模块与中央处理器相连,提取模块与数据库固定连接,数据库与训练模块相连。本发明将单个用户的信息和音色储存在独立的子数据库内部,能快速且精准的对用户发出的语音进行识别确定。
  • 基于拼音对齐算法的语音识别多模型结果合并方法及装置-202310016777.6
  • 陶金;陈禹;汪健 - 杭州健海科技有限公司
  • 2023-01-06 - 2023-08-08 - G10L15/187
  • 本发明公开了基于拼音对齐算法的语音识别多模型结果合并方法及装置,通过构建业务领域范围内的拼音‑汉字的映射数据对,并基于拼音‑汉字的映射数据对,训练拼音翻译汉字模型;利用至少两种不同的语音识别模型生成的文本序列,分别转化为对应的拼音序列;再利用拼音对齐算法,对齐不同的拼音序列,得到候选拼音对齐序列;以最大化局部相似性为原则,利用动态规划的思想,构建待对齐拼音序列的相似度矩阵;利用贪心的思想,从相似度矩阵中找到一条最优对齐路径,并根据相似度计算规则,生成候选拼音对齐序列;最后,通过训练好的拼音翻译汉字模型,将候选拼音对齐序列映射为汉字序列。
  • 语音处理方法、装置、电子设备及存储介质-202010612566.5
  • 曲贺;王晓瑞;李岩 - 北京达佳互联信息技术有限公司
  • 2020-06-30 - 2023-07-07 - G10L15/187
  • 本公开关于一种语音处理方法、装置、电子设备及存储介质,所述方法包括:获取待识别语音,对待识别语音进行分帧处理,得到多个待检测音帧;提取每个待检测音帧分别对应的语音特征;对每个语音特征进行识别,得到每个待检测音帧的检测结果;根据检测结果,对待识别语音进行切分,得到多个目标语音片段,其中,每个目标语音片段的长度小于或者等于第一阈值,且相邻的目标语音片段的长度之和大于或等于第二阈值。通过该方法得到的每个目标语音片段的长度在指定的长度范围之内,可以提高目标语音片段的语音识别效率;同时,由于相邻目标语音片段的长度之和大于或等于第二阈值,使得目标语音片段具有一定的上下文信息,从而可以提高语音识别的准确率。
  • 识别带口音的语音-202111143050.1
  • K·A·格雷 - 谷歌技术控股有限责任公司
  • 2014-01-24 - 2021-12-14 - G10L15/187
  • 本发明涉及识别带口音的语音。描述了用于识别带口音的语音的技术(300,400,500)和装置(100,200,700)。在一些实施例中,口音模块使用基于设备数据的口音库来识别(308)带口音的语音、基于识别的词语被设置为要提供到其中的应用字段而使用不同的语音识别校正水平、或者基于对未正确识别的语音做出的校正来更新(310)口音库。
  • 一种基于语音语义的电器智能控制方法及系统-201610999371.4
  • 郭一正 - TCL科技集团股份有限公司
  • 2016-11-14 - 2021-06-22 - G10L15/187
  • 本发明公开了一种基于语音语义的电器智能控制方法及系统,所述基于语音语义的电器智能控制方法包括:预先对设备的每条控制命令进行标签化设置,将每条控制命令的关键字和关键字的同义词分别设置为控制命令的标签和标签描述;当接收到用户输入的语句后,对输入的语句进行分词,提取出用户输入的语句对应的输入关键字;将所述输入关键字与控制命令的标签进行相似度计算,控制电器执行相似度最高的标签对应的控制命令。本发明所述基于语音语义的电器智能控制方法,显著提高了语音语义的识别率,大大方便了用户采用语音控制设备。
  • 语音识别纠错方法、装置及存储介质-202110163752.X
  • 魏天闻;杞坚玮;秦斌 - 北京小米松果电子有限公司
  • 2021-02-05 - 2021-04-30 - G10L15/187
  • 本公开涉及一种语音识别纠错方法、装置及存储介质。语音识别纠错方法,包括:获取针对待识别语音进行自动语音识别后得到的汉字序列;获取与所述汉字序列对应的拼音序列;将所述汉字序列和所述拼音序列输入至预先训练的纠错模型,通过所述纠错模型提取所述汉字序列和所述拼音序列的特征向量,并根据所述汉字序列和所述拼音序列的特征向量,输出目标汉字序列。通过本公开,对语音识别后得到的文字进行纠错时,可提升纠错的准确率。
  • 聚合语义信息以提高对用户的理解-201880094677.2
  • 维韦克·纳塔拉詹;刘白杨;刘小虎;艾哈迈德·阿利 - 脸谱公司
  • 2018-05-17 - 2021-02-02 - G10L15/187
  • 在一个实施例中,一种方法包括从与第一用户相关联的客户端系统接收第一用户的用户输入,语法分析用户输入以识别与用户输入相关联的一个或更多个n‑gram,访问与第一用户相关联的用户简档,其中用户简档被存储在第一数据储存器中,基于一个或更多个识别的n‑gram访问来自一个或更多个信息图的本体数据,其中所述一个或更多个信息图被分别存储在一个或更多个第二数据储存器中,确定与用户输入相关联的上下文信息,通过聚合用户简档、本体数据和上下文信息来生成语义信息,基于语义信息为所识别的一个或更多个n‑gram生成特征表示,以及基于特征表示来解析与一个或更多个n‑gram相关联的一个或更多个实体。
  • 识别人国籍的方法及装置-201710803540.7
  • 王红岩 - 深圳大学
  • 2017-09-08 - 2021-01-19 - G10L15/187
  • 本发明涉及一种识别人国籍的方法,包括:预存至少一个国家的国人的英语元音发声声学模型;录入被测对象的英语语音;对被测对象的英语语音进行英语元音发声声学分析;当被测对象的英语元音发声声学分析符合所述某一个国家的国人的英语元音发声声学模型时,即识别被测对象的国籍。通过对被测对象的英语元音发声声学进行分析,并与预存的不同国家的国人的英语元音发声声学模型相比较,从而识别被测对象的国籍。
  • 语音识别方法、装置及存储介质-202011242358.7
  • 陈亮;陈帅;彭力 - 北京小米松果电子有限公司
  • 2020-11-09 - 2020-12-25 - G10L15/187
  • 本公开涉及一种语音识别方法、装置及存储介质,以解决语音识别召回率较低的问题,包括:根据采集到的目标语音确定待查询实体;基于数据库的倒排索引查询待查询实体得到候选实体集;对待查询实体对应的汉字的拼音信息与候选实体集中每一候选实体对应的汉字的拼音信息进行归一化处理,得到待查询实体对应的归一化拼音信息和每一候选实体的归一化拼音信息;将待查询实体的归一化拼音信息与每一候选实体的归一化拼音信息进行比对;若存在归一化拼音信息与待查询实体的归一化拼音信息一致的候选实体,则将该候选实体作为针对待查询实体的查询结果。这样,可以有效地提高语音识别的召回率,从而保证语音查询的全面性。
  • 利用外部数据源重新识别语音-201611243688.1
  • 特雷弗·D·施特勒曼;约翰·沙尔克维克;格列布·斯科别利岑 - 谷歌有限责任公司
  • 2016-12-29 - 2020-09-15 - G10L15/187
  • 提供了利用外部数据源重新识别语音。基于外部数据源改进语音识别的方法,包括在计算机存储介质上编码的计算机程序。在一个方面,方法包括:使用自动语音识别获得讲话的初始候选转录,并且基于该自动语音识别器在生成该初始候选转录时未使用的语言模型识别与出现在该初始候选转录中的一个或多个词语发音相似的一个或多个词语。附加的动作包括基于所识别的一个或多个词语生成一个或多个附加候选转录,并且从该候选转录中选择一个转录。所描述的特征可以使得来自外部数据源的数据能够在生成更为准确的转录时被使用而无需修改现有的自动语音识别器,或者可以避免自动语音识别器的重新编译。
  • 一种语音文本规整方法、装置、设备及可读存储介质-201810868006.9
  • 夏春梦;王影;乔玉平 - 科大讯飞股份有限公司
  • 2018-08-02 - 2020-09-11 - G10L15/187
  • 本申请公开了一种语音文本规整方法、装置、设备及可读存储介质,本申请从待规整语音文本中获取由单个单词和/或至少两个连续单词组成的待规整单元,并确定每一待规整单元的各种候选表现形式,该候选表现形式为符合语音规范,且在组成待规整单元的任意一个或多个相邻字母间,任意一个或多个相邻单词间,添加或不添加连字符的结果,从各种候选表现形式中确定待规整单元的目标表现形式,该目标表现形式为符合说话人表达意图的表现形式,将待规整语音文本中待规整单元替换为对应的目标表现形式。本申请方案使得规整后的语音文本能够表达用户真实意图。
  • 语音识别装置及语音识别方法-201480084337.3
  • 丸田裕三 - 三菱电机株式会社
  • 2014-12-24 - 2020-08-07 - G10L15/187
  • 本发明的目的在于提供一种抑制语音识别辞典的数据大小、并能对混合存在多种语言的语音进行语音识别的技术。语音识别辞典(5)包含多个地名辞典(51A~51C)及将其他语言的音素映射到对应语言的音素的多种门牌辞典(52BA~52BC)。从多个地名辞典(51A~51C)中设定用于由设定于语音识别语言设定部(6)的语言用语音识别部利用对应语言的音素进行语音识别的地名辞典,并且从多个门牌辞典(52BA~52BC)中设定用于由该语言用语音识别部将其他语言的音素置换为对应语言的音素并并进行语音识别的门牌辞典。
  • 用于自然语言处理中的模糊匹配的语音模式-201880073075.9
  • C·戳姆;J·小甘锡;S·富奥考;曾杰 - 国际商业机器公司
  • 2018-10-31 - 2020-06-23 - G10L15/187
  • 从自然语言输入中提取标记。计算与所述标记相对应的语音模式,所述语音模式包括在所述标记被说出时表示所述标记的一部分的声音模式。从该语音模式的数据中创建新数据,该新数据包括对应于该语音模式的音节序列。通过将新数据存储在对应于该标记的音节序列矩阵中来改变数据存储设备的状态。通过使用处理器和存储器执行模糊匹配算法来选择与所述标记相对应的选项,所述选项的选择基于所述矩阵中的音节序列。
  • 语音识别方法和设备-201811000407.9
  • 薛少飞 - 阿里巴巴集团控股有限公司
  • 2018-08-30 - 2020-03-10 - G10L15/187
  • 本申请提供了一种语音识别方法和设备,其中,该方法包括:获取语音数据;通过多个方言语音识别模型组件对所述语音数据并行进行识别,得到用于多个语言方言的识别结果和置信度值;通过场景相关度判别模型,确定用于多个语言方言的识别结果属于目标场景的相关度值;对置信度和相关度进行融合判断,确定所述语音数据的方言识别结果。本申请的方案通过方言确定和场景确定相融合的方式,从而提升了方言确定的准确性,解决了现有的先进行识别模型的选择而导致的如果识别模型选择错误,将会导致后续的语音识别结果都会出错的问题,达到了有效提升语音识别结果准确性的技术效果。
  • 语音解析方法和装置-201510903049.2
  • 贺利强;潘复平;钱胜;万广鲁 - 百度在线网络技术(北京)有限公司
  • 2015-12-09 - 2019-07-30 - G10L15/187
  • 本发明提出一种语音解析方法和装置,其中,方法包括:S1、接收输入的待检测语音信号;S2、分帧提取待检测语音信号的语音特征信息,根据语音特征信息和声学模型生成待检测语音信号的识别结果;S3、根据识别结果和预设静音检测算法初步检测出待检测语音信号的语音端点;S4、计算待检测语音信号的置信度信息;S5、解析待检测语音信号的语义信息;以及S6、根据置信度信息和语义信息获取待检测语音信号对应的语音解析结果。本发明实施例的语音解析方法和装置,能够准确地识别语音的有效性,以及通过语义解析,确定语义是否与上下文相关,提高了语音识别系统的性能,使得多轮对话交互过程更加流畅,提升用户使用体验。
  • 用于服务语音发音的高速缓存设备-201580046787.8
  • D·K·奈克;A·S·穆罕默德;H·M·陈 - 苹果公司
  • 2015-08-28 - 2019-06-28 - G10L15/187
  • 本发明提供了用于生成共享发音词典并且使用所述共享发音词典来解释由虚拟助理接收的语音用户输入的系统和过程。在一个实施例中,所述过程可包括从多个用户接收字词或命名实体的发音。所述发音可标记有上下文标签并存储在所述共享发音词典中。所述共享发音词典然后可用于通过以下方式来解释由用户设备接收的语音用户输入:基于与所述用户设备相关联的上下文信息来确定所述共享发音词典的相关子组,并且使用所述共享发音词典的所述确定子组对所述语音用户输入执行语音到文本转换。
  • 语言模型的建立方法、语音辨识方法及电子装置-201310489580.0
  • 张国峰 - 威盛电子股份有限公司
  • 2013-10-18 - 2017-01-11 - G10L15/187
  • 一种语言模型的建立方法、语音辨识方法及电子装置,其中语音辨识方法包括:根据声学模型获得语音信号的音标序列;依据音标序列以及音节声学词典,获得符合音标序列的多个拼音;依据这些拼音,自语言模型中获得多个文字序列及多个文字序列概率;以及,选择文字序列概率中最大者所对应的文字序列,以作为语音信号的辨识结果。其中依据这些拼音获得文字序列及文字序列概率的步骤包括:将各拼音与备选句子列表进行匹配,而获得各拼音与多个备选句子中的各单词对应的单词拼音概率;以及并计算这些拼音所对应的单词拼音概率,而获得所述文字序列概率。本发明能够消除语音映射到文字所产生的歧义性,而保留原始语音输入的信息,使得语音辨识更加精准。
  • 用于使数据列表语音化的方法与语音控制的用户界面-201380008818.1
  • 延斯·瓦尔特 - 大陆汽车有限责任公司
  • 2013-02-11 - 2016-11-23 - G10L15/187
  • 本发明涉及一种用于使具有包含文本的列表条目的数据列表(2)语音化的方法,其中数据列表(2)中的每个列表条目划分为至少两个数据字段并且应当供语音控制的用户界面(1)使用,在该方法中列表条目从文本表达转换为语音并作为音素存储在语音化的数据列表(6)中。设置成,在列表条目的文本中,分隔符插入相应的列表条目的数据字段之间,分隔符一同转换为语音并作为音素符号一同存储,并且音素存储在语音数据库(7)中,其中由存储在语音数据库(7)中的音素生成语音化的数据列表(6)。此外本发明还涉及一种相应地设置的语音控制的用户界面。
  • 使用可变长度语境的语音识别-201280031754.2
  • C·I·西普里安;徐鹏;F·佩雷拉 - 谷歌公司
  • 2012-06-29 - 2016-10-26 - G10L15/187
  • 用于使用可变长度的语境来识别语音的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。接收语音数据和标识该语音数据的候选转录的数据。访问所述候选转录的语音表达。提取针对所述语音表达中的特定音素的多个测试序列。所述多个测试序列中的每个测试序列包括围绕所述特定音素的不同的语境音素集。接收指示声学模型包括与所述多个测试序列中的一个或多个测试序列相对应的数据的数据。从所述一个或多个测试序列之中选择包括最高数目的语境音素的测试序列。基于来自所述语音模型的对应于选定的测试序列的数据来生成候选转录的得分。
  • 语音信号处理方法及装置-201610193074.0
  • 王育军 - 乐视控股(北京)有限公司;乐视致新电子科技(天津)有限公司
  • 2016-03-30 - 2016-08-24 - G10L15/187
  • 本发明实施例提供一种语音信号处理方法及装置。语音信号处理方法包括:接收客户端发送的语音信号;对语音信号进行语音识别,以获得文本数据;对文本数据进行固定句式语义解析,以获得包括固定句式和实体词的初始解析结果;将初始解析结果中的实体词转换为拼音流,以获得中间解析结果;将中间解析结果发送给客户端,以供客户端利用本地信息库对中间解析结果中的拼音流进行修正后获得最终解析结果。采用本发明实施例对语音信号进行语义解析,可以提高语义解析的准确度。
  • 声音识别装置-201280040807.7
  • 熊井朋之;宫崎敏幸 - 旭化成株式会社
  • 2012-08-31 - 2014-05-28 - G10L15/187
  • 按照每个用户的字母输入方式信息,对于由字母列构成的单词,针对每个字母在字母前附加“ドット”(dotto),在是“M与N”、“B与P”等不容易识别的字母的情况下,将一方以重复两次的状态登记到单词字典。例如将单词“PAM”以及与“ドットピーピードットエードットエム”(dottoPP dottoA dottoM)对应的时间序列的特征量对应地进行登记。在用户声音输入“PAM”的情况下,按照自己的字母输入方式信息发声为“ドットピーピードットエードットエム”(dottoPP dottoA dottoM)。使用与该用户的字母输入方式信息相应的单词字典对该声音数据进行声音识别。
  • 模型互补的汉语韵律间断识别系统及方法-201210525876.9
  • 刘文举;倪崇嘉 - 中国科学院自动化研究所
  • 2012-12-07 - 2013-04-10 - G10L15/187
  • 本发明公开了一种模型互补的汉语韵律间断识别方法及系统。由第一输入模块输入汉语语音、汉语文本、汉语语音中每一个汉字的切分边界;由分词、词性标注模块对输入的汉语文本进行分词和词性标注,并由第一词典、语法特征计算模块计算得到汉语文本中每一个汉字的词典特征和语法特征;由第一声学特征计算模块利用基频提取、音强计算模块对输入的汉语语音进行基频抽取、音强计算,得到汉语文本中每一个汉字的声学特征;加载已经训练好的组合互补模型,利用输入汉字的声学特征以及词典特征和语法特征进行识别、判断每一个汉字的韵律间断类型,输出已经标注好韵律间断类型的汉语文本。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top