[发明专利]语音识别方法和设备在审

申请号：	201811000407.9	申请日：	2018-08-30
公开（公告）号：	CN110875039A	公开（公告）日：	2020-03-10
发明（设计）人：	薛少飞	申请（专利权）人：	阿里巴巴集团控股有限公司
主分类号：	G10L15/187	分类号：	G10L15/187;G10L15/26;G10L15/34
代理公司：	北京三友知识产权代理有限公司 11127	代理人：	李辉;徐焕
地址：	英属开曼***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：	本申请提供了一种语音识别方法和设备，其中，该方法包括：获取语音数据；通过多个方言语音识别模型组件对所述语音数据并行进行识别，得到用于多个语言方言的识别结果和置信度值；通过场景相关度判别模型，确定用于多个语言方言的识别结果属于目标场景的相关度值；对置信度和相关度进行融合判断，确定所述语音数据的方言识别结果。本申请的方案通过方言确定和场景确定相融合的方式，从而提升了方言确定的准确性，解决了现有的先进行识别模型的选择而导致的如果识别模型选择错误，将会导致后续的语音识别结果都会出错的问题，达到了有效提升语音识别结果准确性的技术效果。
搜索关键词：	语音识别方法设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

暂无信息

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司，未经阿里巴巴集团控股有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811000407.9/，转载请声明来源钻瓜专利网。

上一篇：一种垃圾衍生燃料热分解系统及热分解工艺方法
下一篇：富文本编辑器的内外交互方法及装置、处理器、存储介质

同类专利

基于音节的自动语音识别-201880046009.2
发明人：达雷尔·T·平森;马克·B·平森 -专利权人： SCTI控股公司
申请日： 2018-07-10 - 公布日： 2023-09-12 - 主分类号： G10L15/187
摘要：描述了系统、方法和计算机程序，其利用音节的结构作为自动语音识别处理的组织元素以克服发音的变化，有效地解决易混淆的方面，利用上下文，并且将语音映射到拼字法。

一种目标语言模型确定方法及装置-202310582619.7
发明人：魏子轩;徐媛媛;周剑;楚建霞 -专利权人：苏州科帕特信息科技有限公司
申请日： 2023-05-23 - 公布日： 2023-08-15 - 主分类号： G10L15/187
摘要：本发明提供一种目标语言模型确定方法及装置，涉及语音识别技术领域。该目标语言模型确定装置，包括中央处理器、语音获取模块、训练模块和数据库，中央处理器后端固定连接有转换模块，转换模块后端固定连接有提取模块，提取模块后端固定连接有确定模块，语音获取模块后端固定连接有语言识别模块和音色识别模块，语言识别模块和音色识别模块与中央处理器相连，提取模块与数据库固定连接，数据库与训练模块相连。本发明将单个用户的信息和音色储存在独立的子数据库内部，能快速且精准的对用户发出的语音进行识别确定。

基于拼音对齐算法的语音识别多模型结果合并方法及装置-202310016777.6
发明人：陶金;陈禹;汪健 -专利权人：杭州健海科技有限公司
申请日： 2023-01-06 - 公布日： 2023-08-08 - 主分类号： G10L15/187
摘要：本发明公开了基于拼音对齐算法的语音识别多模型结果合并方法及装置，通过构建业务领域范围内的拼音‑汉字的映射数据对，并基于拼音‑汉字的映射数据对，训练拼音翻译汉字模型；利用至少两种不同的语音识别模型生成的文本序列，分别转化为对应的拼音序列；再利用拼音对齐算法，对齐不同的拼音序列，得到候选拼音对齐序列；以最大化局部相似性为原则，利用动态规划的思想，构建待对齐拼音序列的相似度矩阵；利用贪心的思想，从相似度矩阵中找到一条最优对齐路径，并根据相似度计算规则，生成候选拼音对齐序列；最后，通过训练好的拼音翻译汉字模型，将候选拼音对齐序列映射为汉字序列。

语音处理方法、装置、电子设备及存储介质-202010612566.5
发明人：曲贺;王晓瑞;李岩 -专利权人：北京达佳互联信息技术有限公司
申请日： 2020-06-30 - 公布日： 2023-07-07 - 主分类号： G10L15/187
摘要：本公开关于一种语音处理方法、装置、电子设备及存储介质，所述方法包括：获取待识别语音，对待识别语音进行分帧处理，得到多个待检测音帧；提取每个待检测音帧分别对应的语音特征；对每个语音特征进行识别，得到每个待检测音帧的检测结果；根据检测结果，对待识别语音进行切分，得到多个目标语音片段，其中，每个目标语音片段的长度小于或者等于第一阈值，且相邻的目标语音片段的长度之和大于或等于第二阈值。通过该方法得到的每个目标语音片段的长度在指定的长度范围之内，可以提高目标语音片段的语音识别效率；同时，由于相邻目标语音片段的长度之和大于或等于第二阈值，使得目标语音片段具有一定的上下文信息，从而可以提高语音识别的准确率。

使用远程源对本地语音识别系统的语言模型修改-201680030321.3
发明人： M·戴舍尔;G·施特默尔 -专利权人：现代自动车株式会社;起亚株式会社
申请日： 2016-05-20 - 公布日： 2022-09-23 - 主分类号： G10L15/187
摘要：使用远程语音识别源修改本地语音识别系统的语言模型。在一个示例中，接收语音话语。将语音话语发送给至少一个远程语音识别系统。从远程语音识别系统接收与话语相对应的文本结果。使用本地词汇表来生成本地文本结果。将接收到的文本结果和所生成的文本结果相比较以确定在本地词汇表之外的词语，并且使用词汇表外词语来更新本地词汇表。

语音识别设备，语音识别方法和电子装置-201610510741.3
发明人：柳尚贤;崔喜烈 -专利权人：三星电子株式会社
申请日： 2016-06-30 - 公布日： 2021-12-28 - 主分类号： G10L15/187
摘要：提供一种语音识别设备、语音识别方法和电子装置。一种语音识别设备包括：概率计算器，被配置为使用声学模型计算音频信号的音素概率；候选集合提取器，被配置为从识别目标列表提取候选集合；以及结果返回器，被配置为基于计算的音素概率和提取的候选集合返回音频信号的识别结果。

识别带口音的语音-202111143050.1
发明人： K·A·格雷 -专利权人：谷歌技术控股有限责任公司
申请日： 2014-01-24 - 公布日： 2021-12-14 - 主分类号： G10L15/187
摘要：本发明涉及识别带口音的语音。描述了用于识别带口音的语音的技术(300，400，500)和装置(100，200，700)。在一些实施例中，口音模块使用基于设备数据的口音库来识别(308)带口音的语音、基于识别的词语被设置为要提供到其中的应用字段而使用不同的语音识别校正水平、或者基于对未正确识别的语音做出的校正来更新(310)口音库。

一种基于语音语义的电器智能控制方法及系统-201610999371.4
发明人：郭一正 -专利权人： TCL科技集团股份有限公司
申请日： 2016-11-14 - 公布日： 2021-06-22 - 主分类号： G10L15/187
摘要：本发明公开了一种基于语音语义的电器智能控制方法及系统，所述基于语音语义的电器智能控制方法包括：预先对设备的每条控制命令进行标签化设置，将每条控制命令的关键字和关键字的同义词分别设置为控制命令的标签和标签描述；当接收到用户输入的语句后，对输入的语句进行分词，提取出用户输入的语句对应的输入关键字；将所述输入关键字与控制命令的标签进行相似度计算，控制电器执行相似度最高的标签对应的控制命令。本发明所述基于语音语义的电器智能控制方法，显著提高了语音语义的识别率，大大方便了用户采用语音控制设备。

语音识别纠错方法、装置及存储介质-202110163752.X
发明人：魏天闻;杞坚玮;秦斌 -专利权人：北京小米松果电子有限公司
申请日： 2021-02-05 - 公布日： 2021-04-30 - 主分类号： G10L15/187
摘要：本公开涉及一种语音识别纠错方法、装置及存储介质。语音识别纠错方法，包括：获取针对待识别语音进行自动语音识别后得到的汉字序列；获取与所述汉字序列对应的拼音序列；将所述汉字序列和所述拼音序列输入至预先训练的纠错模型，通过所述纠错模型提取所述汉字序列和所述拼音序列的特征向量，并根据所述汉字序列和所述拼音序列的特征向量，输出目标汉字序列。通过本公开，对语音识别后得到的文字进行纠错时，可提升纠错的准确率。

聚合语义信息以提高对用户的理解-201880094677.2
发明人：维韦克·纳塔拉詹;刘白杨;刘小虎;艾哈迈德·阿利 -专利权人：脸谱公司
申请日： 2018-05-17 - 公布日： 2021-02-02 - 主分类号： G10L15/187
摘要：在一个实施例中，一种方法包括从与第一用户相关联的客户端系统接收第一用户的用户输入，语法分析用户输入以识别与用户输入相关联的一个或更多个n‑gram，访问与第一用户相关联的用户简档，其中用户简档被存储在第一数据储存器中，基于一个或更多个识别的n‑gram访问来自一个或更多个信息图的本体数据，其中所述一个或更多个信息图被分别存储在一个或更多个第二数据储存器中，确定与用户输入相关联的上下文信息，通过聚合用户简档、本体数据和上下文信息来生成语义信息，基于语义信息为所识别的一个或更多个n‑gram生成特征表示，以及基于特征表示来解析与一个或更多个n‑gram相关联的一个或更多个实体。

识别人国籍的方法及装置-201710803540.7
发明人：王红岩 -专利权人：深圳大学
申请日： 2017-09-08 - 公布日： 2021-01-19 - 主分类号： G10L15/187
摘要：本发明涉及一种识别人国籍的方法，包括：预存至少一个国家的国人的英语元音发声声学模型；录入被测对象的英语语音；对被测对象的英语语音进行英语元音发声声学分析；当被测对象的英语元音发声声学分析符合所述某一个国家的国人的英语元音发声声学模型时，即识别被测对象的国籍。通过对被测对象的英语元音发声声学进行分析，并与预存的不同国家的国人的英语元音发声声学模型相比较，从而识别被测对象的国籍。

语音识别方法、装置及存储介质-202011242358.7
发明人：陈亮;陈帅;彭力 -专利权人：北京小米松果电子有限公司
申请日： 2020-11-09 - 公布日： 2020-12-25 - 主分类号： G10L15/187
摘要：本公开涉及一种语音识别方法、装置及存储介质，以解决语音识别召回率较低的问题，包括：根据采集到的目标语音确定待查询实体；基于数据库的倒排索引查询待查询实体得到候选实体集；对待查询实体对应的汉字的拼音信息与候选实体集中每一候选实体对应的汉字的拼音信息进行归一化处理，得到待查询实体对应的归一化拼音信息和每一候选实体的归一化拼音信息；将待查询实体的归一化拼音信息与每一候选实体的归一化拼音信息进行比对；若存在归一化拼音信息与待查询实体的归一化拼音信息一致的候选实体，则将该候选实体作为针对待查询实体的查询结果。这样，可以有效地提高语音识别的召回率，从而保证语音查询的全面性。

利用外部数据源重新识别语音-201611243688.1
发明人：特雷弗·D·施特勒曼;约翰·沙尔克维克;格列布·斯科别利岑 -专利权人：谷歌有限责任公司
申请日： 2016-12-29 - 公布日： 2020-09-15 - 主分类号： G10L15/187
摘要：提供了利用外部数据源重新识别语音。基于外部数据源改进语音识别的方法，包括在计算机存储介质上编码的计算机程序。在一个方面，方法包括：使用自动语音识别获得讲话的初始候选转录，并且基于该自动语音识别器在生成该初始候选转录时未使用的语言模型识别与出现在该初始候选转录中的一个或多个词语发音相似的一个或多个词语。附加的动作包括基于所识别的一个或多个词语生成一个或多个附加候选转录，并且从该候选转录中选择一个转录。所描述的特征可以使得来自外部数据源的数据能够在生成更为准确的转录时被使用而无需修改现有的自动语音识别器，或者可以避免自动语音识别器的重新编译。

一种语音文本规整方法、装置、设备及可读存储介质-201810868006.9
发明人：夏春梦;王影;乔玉平 -专利权人：科大讯飞股份有限公司
申请日： 2018-08-02 - 公布日： 2020-09-11 - 主分类号： G10L15/187
摘要：本申请公开了一种语音文本规整方法、装置、设备及可读存储介质，本申请从待规整语音文本中获取由单个单词和/或至少两个连续单词组成的待规整单元，并确定每一待规整单元的各种候选表现形式，该候选表现形式为符合语音规范，且在组成待规整单元的任意一个或多个相邻字母间，任意一个或多个相邻单词间，添加或不添加连字符的结果，从各种候选表现形式中确定待规整单元的目标表现形式，该目标表现形式为符合说话人表达意图的表现形式，将待规整语音文本中待规整单元替换为对应的目标表现形式。本申请方案使得规整后的语音文本能够表达用户真实意图。

语音识别装置及语音识别方法-201480084337.3
发明人：丸田裕三 -专利权人：三菱电机株式会社
申请日： 2014-12-24 - 公布日： 2020-08-07 - 主分类号： G10L15/187
摘要：本发明的目的在于提供一种抑制语音识别辞典的数据大小、并能对混合存在多种语言的语音进行语音识别的技术。语音识别辞典(5)包含多个地名辞典(51A～51C)及将其他语言的音素映射到对应语言的音素的多种门牌辞典(52BA～52BC)。从多个地名辞典(51A～51C)中设定用于由设定于语音识别语言设定部(6)的语言用语音识别部利用对应语言的音素进行语音识别的地名辞典，并且从多个门牌辞典(52BA～52BC)中设定用于由该语言用语音识别部将其他语言的音素置换为对应语言的音素并并进行语音识别的门牌辞典。

用于自然语言处理中的模糊匹配的语音模式-201880073075.9
发明人： C·戳姆;J·小甘锡;S·富奥考;曾杰 -专利权人：国际商业机器公司
申请日： 2018-10-31 - 公布日： 2020-06-23 - 主分类号： G10L15/187
摘要：从自然语言输入中提取标记。计算与所述标记相对应的语音模式，所述语音模式包括在所述标记被说出时表示所述标记的一部分的声音模式。从该语音模式的数据中创建新数据，该新数据包括对应于该语音模式的音节序列。通过将新数据存储在对应于该标记的音节序列矩阵中来改变数据存储设备的状态。通过使用处理器和存储器执行模糊匹配算法来选择与所述标记相对应的选项，所述选项的选择基于所述矩阵中的音节序列。

用于生成混淆网络的方法、系统和计算机可读存储设备-201680005243.1
发明人： M·莱维特;U·奥泽特姆;S·帕撒萨拉塞;P·瓦拉德哈拉简;K·拉古纳森;I·阿方索 -专利权人：微软技术许可有限责任公司
申请日： 2016-01-22 - 公布日： 2020-05-12 - 主分类号： G10L15/187
摘要：本公开的示例描述了多弧混淆网络的生成以改善例如向生成的输出返回备选的能力。包括词汇化假设和归一化假设的标记表示的混淆网络被生成。混淆网络的每个弧表示词汇化假设或归一化假设的标记。混淆网络被变换成多弧混淆网络，其中该变换包括重新对齐混淆网络的至少一个标记以跨越混淆网络的多个弧。还描述了其它示例。

语音识别方法和设备-201811000407.9
发明人：薛少飞 -专利权人：阿里巴巴集团控股有限公司
申请日： 2018-08-30 - 公布日： 2020-03-10 - 主分类号： G10L15/187
摘要：本申请提供了一种语音识别方法和设备，其中，该方法包括：获取语音数据；通过多个方言语音识别模型组件对所述语音数据并行进行识别，得到用于多个语言方言的识别结果和置信度值；通过场景相关度判别模型，确定用于多个语言方言的识别结果属于目标场景的相关度值；对置信度和相关度进行融合判断，确定所述语音数据的方言识别结果。本申请的方案通过方言确定和场景确定相融合的方式，从而提升了方言确定的准确性，解决了现有的先进行识别模型的选择而导致的如果识别模型选择错误，将会导致后续的语音识别结果都会出错的问题，达到了有效提升语音识别结果准确性的技术效果。

语音解析方法和装置-201510903049.2
发明人：贺利强;潘复平;钱胜;万广鲁 -专利权人：百度在线网络技术（北京）有限公司
申请日： 2015-12-09 - 公布日： 2019-07-30 - 主分类号： G10L15/187
摘要：本发明提出一种语音解析方法和装置，其中，方法包括：S1、接收输入的待检测语音信号；S2、分帧提取待检测语音信号的语音特征信息，根据语音特征信息和声学模型生成待检测语音信号的识别结果；S3、根据识别结果和预设静音检测算法初步检测出待检测语音信号的语音端点；S4、计算待检测语音信号的置信度信息；S5、解析待检测语音信号的语义信息；以及S6、根据置信度信息和语义信息获取待检测语音信号对应的语音解析结果。本发明实施例的语音解析方法和装置，能够准确地识别语音的有效性，以及通过语义解析，确定语义是否与上下文相关，提高了语音识别系统的性能，使得多轮对话交互过程更加流畅，提升用户使用体验。

用于服务语音发音的高速缓存设备-201580046787.8
发明人： D·K·奈克;A·S·穆罕默德;H·M·陈 -专利权人：苹果公司
申请日： 2015-08-28 - 公布日： 2019-06-28 - 主分类号： G10L15/187
摘要：本发明提供了用于生成共享发音词典并且使用所述共享发音词典来解释由虚拟助理接收的语音用户输入的系统和过程。在一个实施例中，所述过程可包括从多个用户接收字词或命名实体的发音。所述发音可标记有上下文标签并存储在所述共享发音词典中。所述共享发音词典然后可用于通过以下方式来解释由用户设备接收的语音用户输入：基于与所述用户设备相关联的上下文信息来确定所述共享发音词典的相关子组，并且使用所述共享发音词典的所述确定子组对所述语音用户输入执行语音到文本转换。

用于在有异形词存在的情况下执行ASR的系统和方法-201580035900.2
发明人： A·阿加尔沃尔;R·巴尔维 -专利权人：乐威指南公司
申请日： 2015-07-29 - 公布日： 2017-03-01 - 主分类号： G10L15/187
摘要：提供了用于在有异形词存在时执行ASR的系统和方法。接收来自用户的包括多个话语的口头输入。把多个话语中的第一话语匹配到第一单词。确定多个话语中的第二话语匹配在同一异形词集合中的多个单词。识别多个单词中的哪个单词与第一单词的语境相关联。基于第一单词和多个单词中的所识别的单词来执行功能。

语言模型的建立方法、语音辨识方法及电子装置-201310489580.0
发明人：张国峰 -专利权人：威盛电子股份有限公司
申请日： 2013-10-18 - 公布日： 2017-01-11 - 主分类号： G10L15/187
摘要：一种语言模型的建立方法、语音辨识方法及电子装置，其中语音辨识方法包括：根据声学模型获得语音信号的音标序列；依据音标序列以及音节声学词典，获得符合音标序列的多个拼音；依据这些拼音，自语言模型中获得多个文字序列及多个文字序列概率；以及，选择文字序列概率中最大者所对应的文字序列，以作为语音信号的辨识结果。其中依据这些拼音获得文字序列及文字序列概率的步骤包括：将各拼音与备选句子列表进行匹配，而获得各拼音与多个备选句子中的各单词对应的单词拼音概率；以及并计算这些拼音所对应的单词拼音概率，而获得所述文字序列概率。本发明能够消除语音映射到文字所产生的歧义性，而保留原始语音输入的信息，使得语音辨识更加精准。

用于使数据列表语音化的方法与语音控制的用户界面-201380008818.1
发明人：延斯·瓦尔特 -专利权人：大陆汽车有限责任公司
申请日： 2013-02-11 - 公布日： 2016-11-23 - 主分类号： G10L15/187
摘要：本发明涉及一种用于使具有包含文本的列表条目的数据列表(2)语音化的方法，其中数据列表(2)中的每个列表条目划分为至少两个数据字段并且应当供语音控制的用户界面(1)使用，在该方法中列表条目从文本表达转换为语音并作为音素存储在语音化的数据列表(6)中。设置成，在列表条目的文本中，分隔符插入相应的列表条目的数据字段之间，分隔符一同转换为语音并作为音素符号一同存储，并且音素存储在语音数据库(7)中，其中由存储在语音数据库(7)中的音素生成语音化的数据列表(6)。此外本发明还涉及一种相应地设置的语音控制的用户界面。

使用可变长度语境的语音识别-201280031754.2
发明人： C·I·西普里安;徐鹏;F·佩雷拉 -专利权人：谷歌公司
申请日： 2012-06-29 - 公布日： 2016-10-26 - 主分类号： G10L15/187
摘要：用于使用可变长度的语境来识别语音的方法、系统和装置，包括编码在计算机存储介质上的计算机程序。接收语音数据和标识该语音数据的候选转录的数据。访问所述候选转录的语音表达。提取针对所述语音表达中的特定音素的多个测试序列。所述多个测试序列中的每个测试序列包括围绕所述特定音素的不同的语境音素集。接收指示声学模型包括与所述多个测试序列中的一个或多个测试序列相对应的数据的数据。从所述一个或多个测试序列之中选择包括最高数目的语境音素的测试序列。基于来自所述语音模型的对应于选定的测试序列的数据来生成候选转录的得分。

语音信号处理方法及装置-201610193074.0
发明人：王育军 -专利权人：乐视控股（北京）有限公司;乐视致新电子科技（天津）有限公司
申请日： 2016-03-30 - 公布日： 2016-08-24 - 主分类号： G10L15/187
摘要：本发明实施例提供一种语音信号处理方法及装置。语音信号处理方法包括：接收客户端发送的语音信号；对语音信号进行语音识别，以获得文本数据；对文本数据进行固定句式语义解析，以获得包括固定句式和实体词的初始解析结果；将初始解析结果中的实体词转换为拼音流，以获得中间解析结果；将中间解析结果发送给客户端，以供客户端利用本地信息库对中间解析结果中的拼音流进行修正后获得最终解析结果。采用本发明实施例对语音信号进行语义解析，可以提高语义解析的准确度。

利用上下文信息调节语音识别-201510006921.3
发明人：罗德·D·沃特曼;马克·埃文·科恩 -专利权人：联想（新加坡）私人有限公司
申请日： 2015-01-07 - 公布日： 2015-07-29 - 主分类号： G10L15/187
摘要：本公开提供了一种信息处理方法、信息处理设备和产品。所述方法包括：利用处理器获得与信息处理设备有关的上下文信息；利用处理器、通过使用上下文信息来调节自动语音识别引擎；在信息处理设备的音频接收器处接收用户语音输入；以及利用处理器、基于所接收的用户语音输入和对自动语音识别引擎的上下文信息调节来提供所识别的语音。

声音识别装置-201280040807.7
发明人：熊井朋之;宫崎敏幸 -专利权人：旭化成株式会社
申请日： 2012-08-31 - 公布日： 2014-05-28 - 主分类号： G10L15/187
摘要：按照每个用户的字母输入方式信息，对于由字母列构成的单词，针对每个字母在字母前附加“ドット”(dotto)，在是“M与N”、“B与P”等不容易识别的字母的情况下，将一方以重复两次的状态登记到单词字典。例如将单词“PAM”以及与“ドットピーピードットエードットエム”(dottoPP dottoA dottoM)对应的时间序列的特征量对应地进行登记。在用户声音输入“PAM”的情况下，按照自己的字母输入方式信息发声为“ドットピーピードットエードットエム”(dottoPP dottoA dottoM)。使用与该用户的字母输入方式信息相应的单词字典对该声音数据进行声音识别。

模型互补的汉语韵律间断识别系统及方法-201210525876.9
发明人：刘文举;倪崇嘉 -专利权人：中国科学院自动化研究所
申请日： 2012-12-07 - 公布日： 2013-04-10 - 主分类号： G10L15/187
摘要：本发明公开了一种模型互补的汉语韵律间断识别方法及系统。由第一输入模块输入汉语语音、汉语文本、汉语语音中每一个汉字的切分边界；由分词、词性标注模块对输入的汉语文本进行分词和词性标注，并由第一词典、语法特征计算模块计算得到汉语文本中每一个汉字的词典特征和语法特征；由第一声学特征计算模块利用基频提取、音强计算模块对输入的汉语语音进行基频抽取、音强计算，得到汉语文本中每一个汉字的声学特征；加载已经训练好的组合互补模型，利用输入汉字的声学特征以及词典特征和语法特征进行识别、判断每一个汉字的韵律间断类型，输出已经标注好韵律间断类型的汉语文本。

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]语音识别方法和设备在审

专利文献下载