[发明专利]n-gram语言模型的优化方法、装置、计算机设备和存储介质有效

申请号：	202010267695.5	申请日：	2020-04-07
公开（公告）号：	CN111583915B	公开（公告）日：	2023-08-25
发明（设计）人：	张旭华;齐欣;孙泽明;朱林林;王宁	申请（专利权）人：	苏宁云计算有限公司
主分类号：	G10L15/197	分类号：	G10L15/197;G10L15/06;G06F40/242;G06F40/205
代理公司：	北京市万慧达律师事务所 11111	代理人：	张慧娟
地址：	210000 江苏省南***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种n‑gram语言模型的优化方法、装置、计算机设备及存储介质，该方法包括：从待优化的n‑gram语言模型的原语料表中筛选出与目标语料相匹配的相似语料；从待优化的n‑gram语言模型的原模型文件中获取与相似语料对应的原n‑gram；根据原n‑gram的最高阶数与目标语料的分词数的关系以及原n‑gram的概率生成与目标语料对应的目标n‑gram；将目标n‑gram添加至所述原模型文件中。本发明在不改变声学模型及发音词典的基础上，快速优化了原有n‑gram语言模型对目标语料的识别效果。
搜索关键词：	gram 语言模型优化方法装置计算机设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

暂无信息

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于苏宁云计算有限公司，未经苏宁云计算有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/202010267695.5/，转载请声明来源钻瓜专利网。

上一篇：一种生物制药过滤设备
下一篇：一种用于生物医学工程的自动存放式培养皿

同类专利

n-gram语言模型的优化方法、装置、计算机设备和存储介质-202010267695.5
发明人：张旭华;齐欣;孙泽明;朱林林;王宁 -专利权人：苏宁云计算有限公司
申请日： 2020-04-07 - 公布日： 2023-08-25 - 主分类号： G10L15/197
摘要：本发明公开了一种n‑gram语言模型的优化方法、装置、计算机设备及存储介质，该方法包括：从待优化的n‑gram语言模型的原语料表中筛选出与目标语料相匹配的相似语料；从待优化的n‑gram语言模型的原模型文件中获取与相似语料对应的原n‑gram；根据原n‑gram的最高阶数与目标语料的分词数的关系以及原n‑gram的概率生成与目标语料对应的目标n‑gram；将目标n‑gram添加至所述原模型文件中。本发明在不改变声学模型及发音词典的基础上，快速优化了原有n‑gram语言模型对目标语料的识别效果。

语音识别方法、装置、电子设备及可读存储介质-202011402934.X
发明人：赖勇铨 -专利权人：中信银行股份有限公司
申请日： 2020-12-04 - 公布日： 2023-07-21 - 主分类号： G10L15/197
摘要：本申请提供了一种语音识别方法、装置、电子设备及可读存储介质，应用于语音识别技术领域，其中该方法包括：通过预训练的基于掩码的神经网络模型，突破n‑gram模型的限制，能够利用整句的上下文信息，从而更准确的得到候选语句中各个位置对应的文字的类别与概率，进而确定集束搜索确定的各候选语句的概率并进行候选语句的重排序，使得语音识别的结果更准确。

音频处理方法、装置、电子设备和可读存储介质-202211710465.7
发明人：王庆洁;魏光辉;李志飞 -专利权人：出门问问信息科技有限公司
申请日： 2022-12-29 - 公布日： 2023-05-02 - 主分类号： G10L15/197
摘要：本申请实施例提供了一种音频处理方法、装置、电子设备和可读存储介质，涉及计算机技术领域。在本申请实施例中，本申请实施例可以获取目标音频，根据目标语音识别模型中的声学识别模块确定目标音频对应的发音概率矩阵，并根据目标语音识别模型中的语言识别模块和发音概率矩阵，确定目标音频对应的文字信息。进一步的，本申请实施例可以对文字信息进行融合解码处理，以确定目标音频对应的音频识别结果。其中，本申请实施例可以在发音概率矩阵对应的概率空间中搜索概率较大的文字信息，降低了音频和文本之间的数据依赖，在面对新出现的词汇或者生僻词汇时，本申请实施例可以增加模型输出的可能性，提高语音识别的准确率。

语音识别方法、装置、设备及存储介质-202211073547.5
发明人：贾敬伍;赵国庆;周长安 -专利权人：北京中关村科金技术有限公司
申请日： 2022-09-02 - 公布日： 2023-03-31 - 主分类号： G10L15/197
摘要：本发明公开了一种语音识别方法、装置、设备及存储介质。该方法包括：针对待识别语音，获取对应的初始语句文本，并对所述初始语句文本进行第一分词处理，得到第一分词结果；基于预设的同义词词典对所述第一分词结果进行分词匹配，并根据匹配情况对所述初始语句文本进行修正，得到修正语句文本；基于预设的用户词典和分词器对所述修正语句文本进行语句回测；根据语句回测结果确定对应的语音识别结果。本发明结合同义词词典进行词条匹配，增加对用户口语化表达的泛化匹配能力，同时利用用户词典和分词器对修正语句进行回测验证，确保修正结果的正确性，从而提高了语音识别的准确性。

一种中文语音增强识别及文本纠错矫正方法-202211295191.X
发明人：徐慧;余伟超;顾欣;王皓晨;尹必才 -专利权人：南通大学
申请日： 2022-10-21 - 公布日： 2023-01-13 - 主分类号： G10L15/197
摘要：本发明属于语音及文本处理领域，具体涉及一种中文语音增强识别及文本纠错矫正方法，包括：对待识别音频进行预处理，通过声纹模型进行特征提取并建立初始粗糙方言鉴别模型；建立初始网络模型对初始粗糙方言鉴别模型进行训练得到方言鉴别模型；基于N‑gram语言模型确定纠错候选分词集合；通过Bigram2元语言模型和N‑gram语言模型进行纠错矫正后输出文本。本发明对待识别音频进行预处理，减少语音识别干扰因素，采用GMM‑SVM模型提高了识别性能，采用GMM‑UBM模型和LSTM模型的组合模型建立初始网络模型拥有更快更好的训练拟合效果，通过N‑gram语言模型和Bigram2元语言模型进行文本处理纠错有效降低了错误率，优化了待识别音频转换成文本信息的结果。

一种语音识别方法、装置、设备及存储介质-202210281930.3
发明人：万根顺;王磊奇;潘嘉;高建清;刘聪;胡国平;刘庆峰 -专利权人：科大讯飞股份有限公司
申请日： 2022-03-22 - 公布日： 2022-05-20 - 主分类号： G10L15/197
摘要：本发明提供了一种语音识别方法、装置、设备及存储介质，其中，方法包括：获取待识别语音，基于预先训练得到的语音识别模型对待识别语音进行识别，其中，语音识别模型通过两个阶段的训练得到，第一阶段以使训练语音的识别结果与训练语音标注的文本一致为目标进行训练，第二阶段以平衡训练语音的语音识别结果的文本单元错误率与语义可接受度为目标进行训练。经由本发明提供的语音识别方法可获得用户可接受度较高的语音识别结果。

语音识别设备和方法-201611078946.5
发明人：李知炫 -专利权人：三星电子株式会社
申请日： 2016-11-30 - 公布日： 2022-04-22 - 主分类号： G10L15/197
摘要：提供一种语音识别设备和方法。一种语音识别设备，包括：预测器，被配置为基于已被之前搜索的单词序列预测跟随已被之前搜索的单词序列的单词的词类；解码器，被配置为搜索与语音信号对应的候选单词，使用已被搜索的候选单词扩展之前已被搜索的单词序列，并基于预测的词类调整扩展的单词序列的概率值。

用户语音数据处理方法、装置及电子设备-202111567987.1
发明人：郑渊中;叶峰;朱小波;疏北平 -专利权人：上海淇玥信息技术有限公司
申请日： 2021-12-21 - 公布日： 2022-04-12 - 主分类号： G10L15/197
摘要：本申请涉及一种用户语音数据处理方法、装置、电子设备及计算机可读介质。该方法包括：获取来自用户的语音数据；将所述语音数据输入声学模型中，生成多个音素数据；将所述音素数据输入发音模型中，生成多维字符查询矩阵，所述多维字符查询矩阵中包括多个维度，每个维度均包括多个字符和其对应的概率值；将所述多维字符查询矩阵输入语言模型中，生成语义文本；基于所述语义文本生成响应数据以反馈给所述用户。本申请涉及的用户语音数据处理方法、装置、电子设备及计算机可读介质，能够快速准确的对用户的语音数据进行识别，从而更加顺畅的和用户进行交互，快速响应用户的指令，提升用户整体满意度、提升业务处理效率。

用于无监督语言模型权重选择的最佳路径变化率-202080015407.5
发明人：王培栋;崔佳;翁超;俞栋 -专利权人：腾讯美国有限责任公司
申请日： 2020-02-14 - 公布日： 2022-01-14 - 主分类号： G10L15/197
摘要：一种选择用于执行自动语音识别的最优语言模型权重(LMW)的方法，该方法包括：使用语言模型将测试音频解码成词格；使用多个LMW中的第一LMW来分析词格，以确定第一多个最佳路径；使用多个LMW中的第二LMW来分析词格，以确定第二多个最佳路径；基于第一多个最佳路径和第二多个最佳路径之间的最佳路径变化的数量，确定对应于第一LMW的第一最佳路径变化率(BCPR)；以及基于第一BCPR为对应于多个LMW的多个BCPR中的最小BCPR来确定第一LMW为最优LMW。

用于使用语法模型执行话音识别的方法和设备-201580073696.3
发明人：朴致衍;金逸桓;李暻慜;金南勋;李在原 -专利权人：三星电子株式会社
申请日： 2015-01-16 - 公布日： 2021-06-01 - 主分类号： G10L15/197
摘要：本申请公开了一种更新包括用于语音识别的语言模型的语音识别数据的方法，所述方法包括：获取包括至少一个字的语言数据；从至少一个字当中检测不存在于语言模型中的字；获取关于检测到的字的至少一个音素序列；通过将至少一个音素序列划分成预定单元分量来获取构成至少一个音素序列的分量；确定关于在语音识别期间构成至少一个音素序列中的每一个的各个分量出现的概率的信息；以及基于所确定的概率信息来更新语言模型。

语音识别方法、装置、电子设备和存储介质-202011460228.0
发明人：高建清;万根顺 -专利权人：上海科大讯飞信息科技有限公司
申请日： 2020-12-11 - 公布日： 2021-03-26 - 主分类号： G10L15/197
摘要：本发明实施例提供一种语音识别方法、装置、电子设备和存储介质，其中方法包括：确定待识别的语音数据；基于所述语音数据对应的场景关联文本，对所述语音数据进行语音识别，得到所述语音数据的语音识别结果；所述场景关联文本是基于多个关联用户的应用记录数据确定得到的。本发明实施例提供的语音识别方法、装置、电子设备和存储介质，通过获取同一语音识别场景下的不同用户在不同应用间的应用记录数据，利用关联用户间关注点的相似性，提取得到场景关联文本，为待识别语音数据提供了与当前场景关联程度高的辅助文本，提高了基于该场景关联文本得到的语音识别结果的准确性。

语音信号处理方法、装置、电子设备及存储介质-201910809985.5
发明人：韩伟;王阳阳;李曙光 -专利权人：北京猎户星空科技有限公司
申请日： 2019-08-29 - 公布日： 2021-03-19 - 主分类号： G10L15/197
摘要：本发明涉及人工智能技术领域，公开了一种语音信号处理方法、装置、电子设备及存储介质，所述方法包括：对智能设备实时采集到的音频流数据进行语音识别，得到临时识别结果；对临时识别结果进行分词处理，得到若干分词片段；获取第一分词序列之后的下一个分词片段为结束字符的预测概率，预测概率为根据词频数据确定的，词频数据包括基于语料库中的语料确定出的各分词序列在各语料中出现的次数，第一分词序列为临时识别结果中最后的N个分词片段组成的序列；若预测概率大于概率阈值，对临时识别结果进行语义解析。本发明实施例提供的技术方案，能够及时准确地对持续输入的音频流数据进行截断处理，缩短了智能设备的响应时间，提高用户体验。

可扩展的动态类语言建模方法和系统-202010493186.4
发明人： J.M.谢伊纳;P.阿勒克西克 -专利权人：谷歌有限责任公司
申请日： 2016-12-30 - 公布日： 2020-09-25 - 主分类号： G10L15/197
摘要：该文档总体上描述了用于使用基于类的语言模型动态地适应用于用户的个体话音查询的语音识别的系统和方法。该方法可以包括在数据处理硬件处接收用户说出的语音查询；数据处理硬件获取与语音查询相关联的上下文数据；数据处理硬件使用语言模型生成用于所述语音查询的候选转录序列，所述候选转录序列包括表示所述语言模型的语言的词汇表外术语的基于类的符号；数据处理硬件基于上下文数据获取属于特定类别的用户特定术语列表；数据处理硬件通过将所获取的用户特定术语列表合并到语言模型中来更新语言模型；以及数据处理硬件使用更新的语言模型生成用于所述语音查询的转录，该转录包括一系列术语，该一系列术语包括从用户特定术语列表中选择的用户特定术语之一，以代替基于类的符号。

通话回声的识别方法和装置-201610081434.8
发明人：丁华;施唯佳;韩建亭 -专利权人：中国电信股份有限公司
申请日： 2016-02-05 - 公布日： 2020-09-01 - 主分类号： G10L15/197
摘要：本发明公开了一种通话回声的识别方法和装置，涉及通信领域。其中的方法包括：采集送达通话近端的进入扬声器前的远端音频信号；采集通话近端的传声器传出后的混合音频信号；判断混合音频信号与远端音频信号是否具有同频的音频频率；如果具有同频的音频频率，则进一步判断混合音频信号和远端音频信号中的同频音频的振幅是否同比变化；如果同比变化，则识别出通话中存在回声。从而准确可靠地识别出是否存在通话回声。

可扩展的动态类语言建模方法、用于生成话语转录的系统、计算机可读介质-201680085432.4
发明人： J.M.谢伊纳;P.阿勒克西克 -专利权人：谷歌有限责任公司
申请日： 2016-12-30 - 公布日： 2020-06-30 - 主分类号： G10L15/197
摘要：该文档总体上描述了用于使用基于类的语言模型动态地适应用于用户的个体话音查询的语音识别的系统和方法。该方法可以包括从用户接收话音查询，该话音查询包括与用户的话语相对应的音频数据，以及与用户相关联的上下文数据。然后生成一个或多个类模型，该一个或多个类模型共同地标识基于上下文数据确定的第一术语集合，以及对于第一术语集合中的每个相应术语，共同地标识被分配相应术语的相应类。然后可以针对每个相应类访问和处理包括残余一元语法的语言模型，以在语言模型内出现的残余一元语法的每个实例处插入相应类符号。然后使用修改的语言模型生成用户的话语的转录。

语音识别方法、装置、电子设备及存储介质-201811519005.X
发明人：邓耀;王飞 -专利权人：北京嘀嘀无限科技发展有限公司
申请日： 2018-12-12 - 公布日： 2020-06-23 - 主分类号： G10L15/197
摘要：本申请提供了一种语音识别方法、装置、电子设备及存储介质，包括：接收用户输入的语音信息；将语音信息转换成至少一个文本信息；将至少一个文本信息输入动态语言模型，获得动态语言模型输出的每个文本信息的第一命中概率；获得第一命中概率最高的文本信息。本申请实施例可以先将用户的语音信息转换成至少一个文本信息，然后将文本信息输入到动态语言模型中，由动态语言模型来获得每个文本信息的命中概率，然后选出命中概率最高的文本信息。由于动态语言模型是根据同一用户的历史数据信息作为样本训练获得的，因此，该动态语言模型输出的概率更贴近用户的使用习惯，从而有利于提高语音识别的准确率。

语音识别方法、装置、终端和计算机可读存储介质-201710964474.1
发明人：何金来;雷宇 -专利权人：北京智能管家科技有限公司
申请日： 2017-10-17 - 公布日： 2019-01-04 - 主分类号： G10L15/197
摘要：本发明公开了一种语音识别方法，包括根据采集到的语音的声学特征，计算所述语音与解码网络中的音素序列的声学相似概率；其中所述解码网络包括多组音素序列；每一组音素序列对应一个预设的命令词内容或对应噪音内容；根据所述声学相似概率，获得所述语音与所述音素序列的匹配概率；将所述语音识别为匹配概率最高的音素序列所对应的内容。相应地，本发明还公开一种语音识别装置、终端和计算机可读存储介质。本发明实现避免将噪音识别为命令词，且无需在语音识别后计算置信度，达到降低误识别率的效果。

一种确定语音识别结果置信度的方法和装置-201210459131.7
发明人：李新辉 -专利权人：北京百度网讯科技有限公司
申请日： 2012-11-14 - 公布日： 2018-04-03 - 主分类号： G10L15/197
摘要：本发明提供了一种确定语音识别结果置信度的方法和装置，其中方法包括确定解码得到的词图中每条弧的置信度，并确定词图中的最优路径；对所述最优路径上的每条弧Ai，在词图中确定与该弧Ai存在竞争关系的弧集合T；在确定所述弧Ai表示的词语的置信度时，从与所述Ai存在竞争关系的弧集合T中确定出弧Aj，其中弧Aj与弧Ai表示相同的词语，或者弧Aj与其所连接弧组合构成与弧Ai表示相同的词语；结合弧Ai和弧Aj的置信度，或进一步结合所述弧Aj所连接弧的置信度确定弧Ai表示的词语的置信度。本发明在确定语音识别结果的置信度时，考虑了复合词的构成因素，使得置信度更加准确地反映真实状况。

动态语言模型-201711049271.6
发明人：佩德罗·J·莫雷诺·门希瓦尔;迈克尔·H·科恩 -专利权人：谷歌有限责任公司
申请日： 2013-06-18 - 公布日： 2018-03-27 - 主分类号： G10L15/197
摘要：本申请涉及动态语言模型。用于语音识别的方法、系统和设备，包括在计算机存储介质上编码的计算机程序。其中一种方法包括接收用于语音识别的基本语言模型，基本语言模型包括具有基本概率值的第一词语序列；接收与查询场境相关联的话音搜索查询；当查询场境满足与定制语言模型相关联的一个或多个准则时，确定要使用定制语言模型；获得定制语言模型，定制语言模型包括具有经过调节的概率值的第一词语序列，经过调节的概率值是基本概率值被根据查询场境来调节的；以及基于一个或多个概率，将话音搜索查询转换为文本搜索查询，每个概率对应于一个或多个词语序列的群组中的词语序列，群组包括具有经过调节的概率值的第一词语序列。

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]n-gram语言模型的优化方法、装置、计算机设备和存储介质有效

专利文献下载