[发明专利]一种语音识别方法、装置及计算机存储介质在审

专利信息
申请号: 201810784944.0 申请日: 2018-07-17
公开(公告)号: CN110797014A 公开(公告)日: 2020-02-14
发明(设计)人: 梁晓辉 申请(专利权)人: 中兴通讯股份有限公司
主分类号: G10L15/06 分类号: G10L15/06;G10L15/08;G10L15/26;G10L15/30;G10L15/34
代理公司: 44287 深圳市世纪恒程知识产权代理事务所 代理人: 晏波
地址: 518057 广东省深圳市南山*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明实施例公开了一种语音识别方法,包括:接收待识别的语音信号;获取终端对应的语音识别模型,所述终端对应的语音识别模型是根据所述终端与历史使用语音区域的对应关系确定的;根据所述终端对应的语音识别模型对所述语音信号进行识别,获得准确度符合设置条件的语音识别结果作为目标语音识别结果。本发明实施例还公开了一种语音识别装置及计算机存储介质。
搜索关键词: 语音识别 终端 计算机存储介质 语音识别结果 语音识别装置 准确度 关系确定 目标语音 设置条件 语音区域 语音信号
【主权项】:
1.一种语音识别方法,其特征在于,所述方法包括:/n接收待识别的语音信号;/n获取终端对应的语音识别模型,所述终端对应的语音识别模型是根据所述终端与历史使用语音区域的对应关系确定的;/n根据所述终端对应的语音识别模型对所述语音信号进行识别,获得准确度符合设置条件的语音识别结果作为目标语音识别结果。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中兴通讯股份有限公司,未经中兴通讯股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810784944.0/,转载请声明来源钻瓜专利网。

同类专利
  • 一种语音识别方法、装置及计算机存储介质-201810784944.0
  • 梁晓辉 - 中兴通讯股份有限公司
  • 2018-07-17 - 2020-02-14 - G10L15/06
  • 本发明实施例公开了一种语音识别方法,包括:接收待识别的语音信号;获取终端对应的语音识别模型,所述终端对应的语音识别模型是根据所述终端与历史使用语音区域的对应关系确定的;根据所述终端对应的语音识别模型对所述语音信号进行识别,获得准确度符合设置条件的语音识别结果作为目标语音识别结果。本发明实施例还公开了一种语音识别装置及计算机存储介质。
  • 用于语音助手系统的话语权限管理-201880043160.0
  • G·T·米勒 - 亚马逊技术股份有限公司
  • 2018-09-07 - 2020-02-14 - G10L15/06
  • 语音助手系统可以被配置为从受信任用户接收介绍新用户并为所述新用户指定访问权限的口头介绍。所述语音助手系统可以使用自动话语辨识来处理话语,并且可以解析文本以确定意图。所述语音助手系统还可以分析所述话语以确定与说出所述介绍的说话者相关联的简档。所述语音助手系统可以确定所述受信任用户包括管理权限。所述访问权限在被授予时可以允许所述新用户与所述语音助手系统进行交互,诸如利用所述语音助手系统发出命令、提取信息、播放媒体和/或执行其他动作,这些对于没有被受信任用户介绍给所述语音助手系统和/或没有与用户简档相关联的所述访问权限的人而言可能是不可用的。
  • 一种韵律生成模型的训练方法及装置-201911007202.8
  • 林炳怀;王丽园 - 腾讯科技(深圳)有限公司
  • 2019-10-22 - 2020-02-11 - G10L15/06
  • 本发明提供了一种韵律生成模型的训练方法及装置;所述韵律生成模型包括:停顿判断模型、重读判断模型及边界调判断模型,方法包括:通过停顿判断模型,对标注有停顿标记、重读标记及边界调标记的样本文本进行停顿位置预测处理,得到对应样本文本的停顿位置;通过重读判断模型,对样本文本进行重读位置预测处理,得到对应样本文本的重读位置;通过边界调判断模型,对样本文本进行边界调类型预测处理,得到对应样本文本的边界调类型;基于所述停顿位置、所述重读位置及所述边界调类型,确定韵律生成模型的损失函数的值;基于所述损失函数的值,更新韵律生成模型的模型参数。通过本发明,能够实现用于生成通用的韵律标准的韵律生成模型的训练。
  • 一种语音识别及实体识别后的影视实体纠错方法-201911023854.0
  • 孙云云;刘楚雄;唐军 - 四川长虹电器股份有限公司
  • 2019-10-25 - 2020-02-11 - G10L15/06
  • 本发明涉及语音文本处理,其公开了一种语音识别及实体识别后的影视实体纠错方法,解决由于用户在人机交互时由于普通话不标准、搜索句式不完整、噪音等影响因素造成语音识别的影视实体不完整、错误而影响用户体验的问题。该方法包括以下步骤:A、对语音转化后的文本数据进行分析和预处理,获取样本数据集;B、利用样本数据训练基于Bilstm+crf的命名实体识别模型;C、通过对近期用户高频请求的影视实体数据进行处理,构建实体修正数据集;D、实际语音交互过程中,根据语音识别后的文本数据,利用训练的基于Bilstm+crf的命名实体识别模型进行预测及实体验证;E、对验证失败的实体进行纠错处理;F、对纠错结果进行封装处理。
  • 一种从语音数据中提取结构化交通路况信息的方法-201610960201.5
  • 梁永杰;蒋晟;张志勇;黄艳明;杨喆;李全忠;何国涛;蒲瑶;张玉 - 普强信息技术(北京)有限公司
  • 2016-10-28 - 2020-02-11 - G10L15/06
  • 本发明涉及一种从语音数据中提取结构化交通路况信息的方法,由以下步骤组成:获取包含所需路况信息的语音,并进行语音预处理;将预处理后的语音数据转写为文本,获得语音识别文本;对语音识别文本进行分词,并将分词结果进行词性标注;对分词后的文本进行筛选,将无用信息内容过滤掉;进行关键信息抽取;进行路段信息的聚合;进行路况信息聚合;进行路况信息后处理。本发明基于语音识别技术、自然语言处理技术,实现从语音数据提取结构化交通路况信息的方法,作为数据源补充现有的路况信息采集系统,可解决对于非交通流类路况信息的采集效果不佳的问题,更好地反映城市路面信息的效果。
  • 面向安防领域的无监督的新颖性音频事件检测方法及系统-201610647449.6
  • 张爱英;倪崇嘉 - 张爱英;倪崇嘉
  • 2016-08-09 - 2020-02-11 - G10L15/06
  • 本发明公开了面向安防领域的无监督的新颖性音频事件检测方法及系统;模型训练步骤:对实际监控场景下的音频进行训练,训练得到基于深度双向长短时记忆递归神经网络的降噪自动编码机模型;颖性音频事件检测步骤:对获取在实际监控场景下不同待测区域的音频,对音频进行特征提取后,将提取后的特征输入到已经训练得到的基于深度双向长短时记忆递归神经网络的降噪自动编码机模型中,进行新颖性音频事件发生与否的检测。本发明利用基于深度双向长短时记忆递归神经网络的降噪自动编码机编码实际场景中有用的信息。该信息能够使得系统有效的检测出实际场景下新颖性事件。
  • 一种融合数据归一化的自适应变异鸟群语音识别系统-201710584790.6
  • 白静;郭倩岩;薛珮芸;史燕燕 - 太原理工大学
  • 2017-07-18 - 2020-02-11 - G10L15/06
  • 本发明涉及语音识别技术领域,一种融合数据归一化的自适应变异鸟群语音识别系统,通过采用自适应变异的方法对鸟群个体更新方法进行改进,在鸟群算法在迭代更新初期,引入一种变异操作,对参数自适应过程进行优化,并结合数据归一化方法,简化了数据结构和算法复杂度,有效提高了算法的种群多样性,增强了模型的泛化能力,解决了算法早熟收敛以及搜索能力随代数增加而逐渐下降的问题,改善了易陷入局部最优的缺陷。本发明识别准确率更高,收敛速度更快,鲁棒性更强,寻优效果更好。
  • 一种训练语音识别模型、识别语音的方法及装置-201910708335.1
  • 赵帅江;赵茜;罗讷 - 北京嘀嘀无限科技发展有限公司
  • 2019-08-01 - 2020-02-07 - G10L15/06
  • 本申请提供了一种训练语音识别模型、识别语音的方法及装置,训练语音识别模型的方法包括:获取多条基础语音信息;基于多种环境下的噪声语音信息和/或不同类型车辆对应的车内冲击响应信息对所述基础语音信息进行扩展处理,得到样本语音信息;基于所述样本语音信息和所述样本语音信息对应的实际语音识别结果,训练语音识别模型;所述语音识别模型用于对待识别语音进行语音识别。该申请实施例能够使得语音识别模型具有更强的泛化能力,提升语音识别模型的精度,进而提升对语音识别的准确度。
  • 构建语音识别模型的方法、装置、设备和存储介质-201910884620.9
  • 王健宗;贾雪丽 - 平安科技(深圳)有限公司
  • 2019-09-19 - 2020-02-04 - G10L15/06
  • 本申请涉及人工智能领域,提供了一种构建语音识别模型的方法、装置、设备和存储介质,方法包括:获取多个训练语音样本;通过独立卷积层、卷积残差层、全连接层以及输出层构建语音识别模型;将所述训练语音信息输入至所述语音识别模型,通过自然语言处理NLP技术、所述语音信息以及所述语音信息对应的文本标签更新所述语音识别模型的神经元权值,以得到目标模型;通过L(S)=‑ln∏
  • 一种端到端的语音识别方法-201910988520.0
  • 贾宇;董弋粲;沈宜;卢江波;张明亮 - 成都三零凯天通信实业有限公司
  • 2019-10-17 - 2020-02-04 - G10L15/06
  • 本发明公开了一种端到端的语音识别方法,包括以下步骤:S1:获取若干的语音数据并得到语谱图,构建声学模型和语言模型;S2:利用所述声光模型,训练语音数据得到包含拼音符号的声学模型文件;S3:利用所述语言模型,训练所述包含拼音符号的模型文件得到包含汉字的语言模型文件;S4:输入待识别的语音,利用声学模型文件和语言模型文件对语音进行识别。可以方便的将语音内容直接转化为文字内容,识别可以到达端到端,且流程相对简单,泛化性能和识别准确率较传统算法有极大的提升,有效的提高了识别的效率和准确率,大大促进了人机交互领域的发展。
  • 语音识别的建模方法和装置-201510920809.0
  • 白锦峰;苏丹;胡娜;贾磊 - 百度在线网络技术(北京)有限公司
  • 2015-12-11 - 2020-02-04 - G10L15/06
  • 本发明提出一种语音识别的建模方法和装置,上述语音识别的建模方法包括:将语音信号转化成特征向量序列,以及将所述语音信号对应的标注文本转化成建模单元序列,所述建模单元序列中的每个建模单元为完整的声母或韵母的发音单元或者上下文相关的声母或韵母的发音单元;在所述建模单元序列中的任意建模单元的前面或后面添加空白标签;基于连接时序分类对所述特征向量序列和添加所述空白标签后的建模单元序列进行训练,建立语音识别模型。本发明基于CTC的深度循环神经网络的声韵母建模,提高了建立的语音识别模型的识别速度和识别准确率。
  • 语音语料生成方法及装置、语音识别方法及装置-201810715623.5
  • 左新成;刘焱;黄雪梅 - 上海智臻智能网络科技股份有限公司
  • 2018-07-03 - 2020-01-10 - G10L15/06
  • 本发明提供一种语音语料生成方法及装置、语音识别方法及装置。所述语音语料生成方法包括:根据目标业务建立标签分类;基于每个所述标签分类预设一个或多个有序语义表达式,每个所述有序语义表达式包括一个或多个分词结果,每个所述分词结果包括一个或多个词类;根据所述分词结果对每个所述有序语义表达式进行训练处理以得到对应的多个目标语料;根据所述目标语料生成与所述标签分类对应的业务语料库。本发明大大减少人工采编语音语料的时间,且可以丰富语音语料的数量及问法,最终减少语音语料生成的成本,有效提高语音识别准确率。
  • 一种语音识别方法及装置-201910867294.0
  • 闫博群;汪俊;李索恒;张志齐;郑达 - 上海依图信息技术有限公司
  • 2019-09-12 - 2020-01-10 - G10L15/06
  • 本发明实施例提供一种语音识别方法及装置,涉及语音处理技术领域,方法应用于语音识别系统,语音识别系统至少包括语音识别模型,语音识别模型包括多个语音识别子模型,方法包括:针对每次迭代训练过程中的每个语音识别子模型,执行如下操作直至训练结束:语音识别子模型并行地从训练数据集合中获取第一语音训练数据;语音识别子模型根据获取语音增强参数及第一语音训练数据确定第二语音训练数据,语音增强参数用于为第一语音训练数据增加背景噪声;语音识别子模型使用第二语音训练数据进行训练,并根据本次迭代过程中其他语音识别子模型的训练结果更新语音识别子模型。通过在线生成训练数据,提高了语音识别的精准度。
  • 一种语言模型训练方法、构建方法和装置-201810682370.6
  • 黄海兵;庞帅;张扬 - 北京搜狗科技发展有限公司
  • 2018-06-27 - 2020-01-03 - G10L15/06
  • 本申请实施例公开了一种语言模型训练方法,所述方法包括:终端确定第一语言模型;终端通过本地生成的历史输入数据对第一语言模型进行训练得到训练后的第一语言模型;终端向服务器发送训练后的第一语言模型的第一模型参数,第一模型参数用于确定第二语言模型的第二模型参数;第二语言模型用于为终端展示联想得到的候选项。可见,在得到第二语言模型的过程中,包含有用户隐私的历史输入数据均在终端本地通过第一语言模型进行训练,无需向服务器上传原始的历史输入数据,故降低了用户隐私信息暴露的风险,且终端上传到服务器的也仅是训练后的第一语言模型的第一模型参数,上传的数据量相对较少,提高了得到第二语言模型过程中终端的上传效率。
  • 声学模型训练方法、装置、设备及计算机可读介质-201811473628.8
  • 霍昱光 - 百度在线网络技术(北京)有限公司
  • 2018-12-04 - 2019-12-27 - G10L15/06
  • 本发明提出一种声学模型训练方法,包括:对输入的语音进行识别,得到语音数据对应的文本;当检测到对所述文本的修改操作时,获取修改数据;将所述修改数据作为新的训练数据和原始训练数据一起输入至声学模型进行训练。本发明实施例利用客户端上实际收集到的同源数据并将其转换成有效的新训练数据,相对于原始的人工标注数据方式大幅节省时间和人力,同时大量增加数据积累。
  • 提高肌肉萎缩或神经退行性病人语音可懂度装置和方法-201611140893.5
  • 雷志春 - 天津大学
  • 2016-12-12 - 2019-12-13 - G10L15/06
  • 本发明涉及语音帮助、语音增强技术,为不易懂语言通过智能手机的麦克风输入,增强之后变得易懂的语音通过智能手机的扬声器输出,本发明,由手机及设置在手机上的语音增强模块构成,不易懂语言通过手机的麦克风输入,经增强模块增强之后变得易懂的语音通过智能手机的扬声器输出;其中,增强模块包括:傅里叶变换模块,变换后输出到自适应滤波器模块,自适应滤波器模块利用参考频谱进行训练,所述参考频谱为生病前语音频谱的模型,或者是对于每个年龄段、性别、地区从健康人的发音进行统计得到语音频谱模型,训练完毕后的自适应滤波器对输入的信号进行增强,最后经傅里叶逆变换输出增强后的语音。本发明主要应用于语音增强场合。
  • 一种语音识别的方法和装置-201611219528.3
  • 王东;马习;张之勇;张雪薇;张玥 - 清华大学
  • 2016-12-26 - 2019-12-13 - G10L15/06
  • 本申请提供了一种语音识别的方法和装置,包括:将语言模型表示为有限状态转移机;待识别的新词根据设定规则在所述有限状态转移机获得所述新词对应的近义词;将所述新词添加到所述有限状态转移机,获得更新后的有限状态转移机,使用所述更新后的有限状态转移机进行语音识别,从而解决了目前语音识别中新词快速添加和识别的问题。
  • 一种基于微控制器的人工智能语音识别方法及系统-201910780711.8
  • 夏元杰;张耀斌 - 北京技德系统技术有限公司
  • 2019-08-22 - 2019-12-03 - G10L15/06
  • 本发明公开了一种基于微控制器的人工智能语音识别方法及系统,通过将模型训练与指令识别分开执行的方式,解决因微控制器内存以及存储容量小而无法更新或定制语音指令的问题,且能够在微控制器本地完成离线语音识别。其有益效果在于:(1)可通过本地微控制器获取个性化语音数据,将其上传至远程服务器进行训练,得到对应的语音指令模型,实现语音指令的灵活配置;(2)可通过下载远程服务器上训练的语音模型,在本地微控制器端实现离线语音识别;(3)可将识别后的语音数据上传至远程服务器进行存储,也可在远程服务器利用语音数据进行模型优化来提高语音模型的识别准确率,或者简化语音模型来提高微控制器端的语音识别速度。
  • 语音控制方法及装置-201910833792.3
  • 孙中全 - 上海博泰悦臻电子设备制造有限公司
  • 2019-09-04 - 2019-12-03 - G10L15/06
  • 本发明提供了一种语音控制方法及装置,语音控制方法包括:获取用户输入的语音指令信息;对语音指令信息进行识别;在语音指令信息中包括编号信息时,获取编号信息对应的应用的标识;获取语音指令信息中的操作指令,并根据操作指令控制编号信息对应的应用执行相应的操作。本发明提供的语音控制方法及装置,将显示界面上的应用图标与编号绑定在一起;再从获取的用户语言指令中识别编号,对与编号对应的应用执行相关操作;因为编号的发音简单且容易识别,所以语音控制的识别率、精确度高。
  • 一种年龄增强的语音识别增强方法和装置-201910955160.4
  • 刘旭生;马永波;张晓慧;李子乾;张才俊;申蕾;王笑一;王秀春;何学东;朱龙珠;杨华;安业腾 - 国家电网有限公司客户服务中心
  • 2019-10-09 - 2019-12-03 - G10L15/06
  • 本发明公开了一种语音识别方法和装置,特别公开了一种年龄增强的语音识别增强方法和装置。该一种年龄增强的语音识别增强方法和装置,本装置主要由语音分帧模块、类别标记模块、年龄段编码向量模块和语音识别系统训练模块构成;本装置需预设对训练数据分帧进行发音类别标记,标记对应的年龄段,然后将获取的年龄端编码为向量加入到语音识别系统训练模块中去,获取语音识别引擎;在语音识别系统训练模块获取了年龄向量后,即可进行语音识别引擎训练。其益效果是:通过多任务协同学习的方法,将年龄作为一个向量加入到语音识别模型训练中去,既能共享大数据中语音基础信息,又能对不同年龄段的人群进行针对性优化,从而提高语音识别引擎整体的识别率。
  • 提升唤醒性能的方法和装置-201910801354.9
  • 焦蓓;周强;徐俊峰 - 苏州思必驰信息科技有限公司
  • 2019-08-28 - 2019-11-29 - G10L15/06
  • 本发明公开提升唤醒性能的方法和装置,其中,一种提升唤醒性能的方法,包括:以语音帧的形式对输入信号进行检测,判定所述语音帧为疑似语音帧或非语音帧;基于判定的疑似语音帧和非语音帧确定有效语音段;将所述有效语音段输入至自适应唤醒模型中,其中,所述自适应唤醒模型是基于收集的唤醒词正例样本和非唤醒词反例样本进行有监督地深度神经网络学习后获取的一个多分类模型;以及获取所述自适应唤醒模型的输出,基于所述输出确定是否唤醒设备。本申请的方法和装置提供的方案加入自适应唤醒模型对有效语音段进行自适应唤醒,从而能够有效的提升唤醒率,尤其是在嘈杂环境中效果尤为明显。
  • 一种反馈信息生成方法、装置、存储介质和智能设备-201910663300.0
  • 姚雄 - 平安科技(深圳)有限公司
  • 2019-07-22 - 2019-11-22 - G10L15/06
  • 本发明提供了一种反馈信息生成方法、装置、存储介质和智能设备,包括:获取学员选择的演练场景;获取所述学员的语音信息;提取所述语音信息的语音特征,并根据训练好的语义识别模型识别所述语音信息的语义;查找所述学员选择的演练场景对应的脚本库中与所述语义对应的对话脚本;查找所述学员选择的演练场景对应的多媒体库中与所述语音特征对应的交互情绪状态;基于所述对话脚本与所述交互情绪状态,生成所述语音信息的演练反馈信息。本发明使得模拟演练更为逼真,可提高学员演练的效率。
  • 模型训练方法、装置、存储介质及电子设备-201910765402.3
  • 陈喆 - OPPO广东移动通信有限公司
  • 2019-08-19 - 2019-11-22 - G10L15/06
  • 本申请实施例公开了一种模型训练方法、装置、存储介质及设备,其中,通过采集用户的语音数据,该语音数据包括预设关键词,并对采集到的语音数据进行质量评估,得到质量评估结果,以及在质量评估结果满足预设质量要求时,提取该语音数据的声学特征,利用预先训练的通用唤醒模型对声学特征进行自适应处理,得到用于识别用户的声纹唤醒模型。由此,通过利用通用唤醒模型对数据量较少的用户语音数据进行自适应处理,无需获取用户的大量语音数据作为样本进行训练,即可得到准确代表用户的声纹唤醒模型,并且,本申请中还通过质量评估确保了采集的用户语音数据的质量,能够进一步确保训练得到的声纹唤醒模型的准确性,进而能够提高语音识别的准确度。
  • 基于神经网络的酒店服务语音交互识别方法及装置-201910797543.3
  • 占戈;许重阳;张健 - 北京明日汇科技管理有限公司
  • 2019-08-27 - 2019-11-22 - G10L15/06
  • 本发明实施例公开了一种基于神经网络的酒店服务语音交互识别方法及装置,所述方法包括:获取用户输入的服务呼叫语音数据;对服务呼叫语音数据进行语音识别处理,得到服务呼叫语音数据对应的服务呼叫文字数据;将服务呼叫文字数据输入至预设的神经网络模型,输出服务呼叫文字数据的语义信息;根据语义信息生成反馈指令,并将反馈指令发送的执行设备,以使执行设备对用户的服务呼叫做出反馈。本发明实施例公开的基于神经网络的酒店服务语音交互识别方法及装置,专门针对酒店服务呼叫类语言,提取出酒店服务类关键词清单,加入到智能语音交互系统的语言理解及分类环节,利用神经网络模型使系统可以对酒店用户的服务需求做出正确的理解和反馈。
  • 个性化热词检测模型-201610586197.0
  • 拉吉尔·阿尔瓦雷茨·格瓦拉 - 谷歌有限责任公司
  • 2016-07-22 - 2019-11-22 - G10L15/06
  • 本发明涉及个性化热词检测模型。本公开提供了方法、系统和设备,其包括在计算机存储介质上被编码的用于在系统中呈现通知的计算机程序。在一个方面中,方法包括如下动作:获得表示用户所讲的登记话语的登记声学数据,获得表示其他用户所讲的话语的候选声学数据集,为所述候选声学数据集中的每个候选声学数据确定相似性得分,该相似性得分表示在所述登记声学数据与所述候选声学数据之间的相似性,至少部分地基于所述相似性得分来从所述候选声学数据集中选择候选声学数据子集,基于所述候选声学数据子集来生成检测模型,以及提供所述检测模型以用于在检测所述用户所讲的话语中使用。
  • 一种基于深度学习的空中管制中英文语音判别方法-201910654299.5
  • 王耀彬 - 上海麦图信息科技有限公司
  • 2019-07-19 - 2019-11-19 - G10L15/06
  • 本发明公开了一种基于深度学习的空中管制中英文语音判别方法,包括以下步骤:获取待判别的语音信号,并将其转换为16bit 16kHz的PCM音频数据;建立深度网络模型;利用训练数据训深度网络模型得到中英文语音判别引擎;其中,深度网络模型使用深度残差卷积模块作为特征提取器,并由reshape层和全连接层对提取的特征数据进行处理,最终通过softmax分类器进行分类学习,获得判别结果。本发明采用以人工智能深度学习引擎为核心,具有极强的专业适用性和口音泛化能力,数据量依赖程度更低的优点,在空管中英文语音的语言判别上表现优异。
  • 一种语音识别方法、装置、存储介质及终端-201910812329.0
  • 谭星;胡凯;张岱;史彩庆;舒景辰 - 北京大米科技有限公司
  • 2019-08-30 - 2019-11-19 - G10L15/06
  • 本申请实施例公开了一种语音识别方法、装置、存储介质及终端,其中,所述方法包括:获取待识别语音数据;采用预先训练好的语音识别模型对所述待识别语音数据进行语音识别处理,获得所述待识别语音数据对应的第一文本信息;采用预先训练好的文本调整模型对所述第一文本信息进行文本调整处理,生成所述第一文本信息对应的第二文本信息。采用本申请实施例,能够对语音识别模型生成的第一文本进行字词更换、语句结构变换等调整处理,优化文本内容,提升语音识别的准确性。
  • 一种神经网络声学模型训练方法-201510290592.X
  • 张晴晴;陈梦喆;潘接林;颜永红 - 中国科学院声学研究所;北京中科信利技术有限公司
  • 2015-05-29 - 2019-11-19 - G10L15/06
  • 本发明涉及一种神经网络声学模型训练方法,所述方法具体包含:步骤101)搭建基础DNN网络架构,所述DNN网络架构包含:输入层,隐含层和输出层,其中输出层用于输出三音素状态集;步骤102)对输出的三音素状态集聚类,并将聚类后的三音素根据中心音素进行分类,分为中文音素、英文音素及非语音音素三类;步骤103)在输出层增加一组线索结点,该组线索结点分别对应步骤102)对三音素分类得到的三类结果;其中,加入的线索结点与最后一层隐含层全连接,得到最终网络架构;步骤104)针对得到的最终网络架构进行训练,当训练完成后将线索结点从网络中剥离,进而完成针对神经网络声学模型训练,再基于剥离后的网络进行语音识别。
  • 语音识别装置及方法-201510294261.3
  • 林海兴 - 富泰华工业(深圳)有限公司;鸿海精密工业股份有限公司
  • 2015-06-02 - 2019-11-19 - G10L15/06
  • 本发明提供一种语音识别装置及方法,该装置包括存储单元及处理单元,该存储单元存储有第一数据库及第二数据库,该第一数据库用于存储预设数量段的语音、每段语音的特征值及各用户的语音特征平均值,该第二数据库用于存储历史语音数据,该处理单元包括第一训练模块,当第一数据库中新存储有一段语音时,对该段新存储的语音在内的所有语音进行语音训练;转移模块,在所有语音完成语音训练时,将第一数据库中最早存储的一段语音转移存储至第二数据库;及第二训练模块,在该最早存储的一段语音转移存储至第二数据库时,对第二数据库中的所有语音进行语音训练。本发明在数据量较少的第一数据库中进行语音训练,减少了语音训练的耗时。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top