[发明专利]标准模式适应装置、标准模式适应方法和标准模式适应程序无效

专利信息
申请号: 200780006994.6 申请日: 2007-02-16
公开(公告)号: CN101390156A 公开(公告)日: 2009-03-18
发明(设计)人: 大西祥史 申请(专利权)人: 日本电气株式会社
主分类号: G10L15/06 分类号: G10L15/06
代理公司: 中科专利商标代理有限责任公司 代理人: 李香兰
地址: 日本*** 国省代码: 日本;JP
权利要求书: 查看更多 说明书: 查看更多
摘要: 提供一种即使在标准模式的识别性能低的情况下,也能够充分地利用输入声音数据信息来进行适应的方法、装置。标准模式适应装置(2),具有:使用输入声音数据和标准模式来计算出识别结果教师标签的声音识别部(18);和计算出适应数据的适应数据算出部(19),该适应数据由通过标准模式的识别错误倾向的统计信息即识别错误知识对输入声音数据和识别结果教师标签按照适应用进行修正后的教师标签和声音数据形成;和使用适应数据来使得标准模式适应并生成适应模式的标准模式适应部(20)。
搜索关键词: 标准 模式 适应 装置 方法 程序
【主权项】:
1. 一种标准模式适应方法,其特征在于,具有:使用输入声音数据和标准模式来计算出识别结果教师标签的声音识别工序;计算出适应数据的适应数据算出工序,该适应数据由通过上述标准模式的识别错误倾向的统计信息即识别错误知识对上述输入声音数据和上述识别结果教师标签按照适应用进行修正后的教师标签和声音数据形成;和使用上述适应数据来使得上述标准模式适应并生成适应模式的标准模式适应工序。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于日本电气株式会社,未经日本电气株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/200780006994.6/,转载请声明来源钻瓜专利网。

同类专利
  • 一种基于子空间的非特定人孤立词识别方法及装置-201210093120.1
  • 何亮;巴福生 - 北京安慧音通科技有限责任公司
  • 2012-04-01 - 2012-09-26 - G10L15/06
  • 本发明涉及自动语音识别领域,特别是一种基于子空间技术的非特定人孤立词识别方法和装置。该方法的特征在于将子空间技术应用到隐含马尔科夫模型中,首先利用所有语音数据训练全局模型,随后采用子空间自适应的方法,刻画声学基元模型,并依此建立隐含马尔可夫模型。该装置包括:语音预处理模块、特征提取模块、建立模型模块、模型匹配模块和分数判决模块。本发明在有限数据条件下能够稳健估值。适用于训练和识别语音数据有限条件下,中等规模词表的非特定人孤立词识别。
  • 可自学习的情侣声音对换机-201210145827.2
  • 黄莹;陈恩策;赵伟;叶子晟;唐厚君 - 黄莹
  • 2012-05-12 - 2012-09-19 - G10L15/06
  • 本发明是一种可自学习的情侣声音对换机,属于声音信号处理领域,提出了一种声音转换的新方法。本发明分为四大模块:声音输入及分析模块、声音转换及输出模块、DSP控制中心、按键操作模块,实现了对两人声音的对换。应用神经网络自学习技术,分析原始声音基频和共振峰频率的关系,得到转换目标函数;再经过频谱分析仪对比两声音基频差,修正目标函数,即可得到转换函数。分别将原始声音I,II和目标声音I,II存储在存储器的四个分区中,由DSP指针指示。对换声音时,只需将原始声音区对换,及将指针指向对方地址即可。本发明将情侣两人身份对换后重现对话场景,可以解决沟通不当引起的争端。
  • 高速公路音频车辆检测装置及其方法-201210129754.8
  • 吴玺宏;张志平;彭锐;傅宇浩;何文欣;谢昆青;宋国杰 - 中咨泰克交通工程集团有限公司;北京大学
  • 2012-04-27 - 2012-09-19 - G10L15/06
  • 本发明是一种高速公路音频车辆检测装置及其方法。检测装置由麦克风阵列信号采集模块采集车道上的音频信号,音频信号经噪声抑制模块去噪处理后,再经信号处理模块分带滤波、分帧以及子带信号间做互相关处理,得到音频空间谱图,车辆检测模块追踪音频空间谱图上最大值的轨迹,判断是否有车辆通过,在有车时,经车型识别模块和车速识别模块获得车型和车速。检测方法基于所述装置,采用自适应窗长的最小统计噪声估计方法,并对经过噪声抑制处理后的信号分带滤波、分帧处理后,将相同子带信号间做互相关,互相关结果经过幅度压缩后加和,再沿时间轴展开,得到音频信号时空谱。本发明具有低成本、低功耗、易施工、抗干扰、全天候工作等优点。
  • 一种建立语言模型的方法、语音识别的方法及其装置-201210050076.6
  • 万广鲁 - 北京百度网讯科技有限公司
  • 2012-02-29 - 2012-08-01 - G10L15/06
  • 本发明提供了一种建立语言模型的方法、语音识别的方法及其装置,其中建立语言模型的方法包括:获取时效性搜索语料;利用获取到的时效性搜索语料进行语言模型训练,以得到时效性语言模型;将所述时效性语言模型与背景语言模型融合,以得到最终的识别语言模型,其中所述背景语言模型用于描述用户的长期检索行为。采用本发明的识别语言模型,当用户对突发事件发出语音检索请求时,能够准确地对用户的请求进行识别,进而能够为用户提供可靠的检索结果。
  • 一种半监督的发音模型建模系统及方法-201010611722.2
  • 张峰 - 盛乐信息技术(上海)有限公司
  • 2010-12-29 - 2012-07-11 - G10L15/06
  • 本发明公开了一种半监督的发音模型建模方法,包括步骤:对音素的错误发音建立初始声学模型;强制对齐,获得该音素的时间边界;计算该音素错误发音的GMM模型;对GMM模型聚类;按照聚类结果重新训练该音素的错误发音的声学模型。本发明还公开了实现上述方法的系统。该发音模型建模系统及方法,先采用有监督的方法,把错误发音按照音素的不同分为大的类别,再在每个大类中用无监督的方法对错误发音聚类,从而解决了分布比较分散的发音的建模问题,提高了计算机辅助语言学习系统的性能。
  • 用于语音输入法的语音训练方法及相应的系统-201110000431.4
  • 吕志虎;夏博 - 中国移动通信集团公司
  • 2011-01-04 - 2012-07-04 - G10L15/06
  • 本发明公开一种用于语音输入法的语音训练方法,包括:网络侧设备从终端接收用户实时输入的语音信息;所述网络侧设备对所述语音信息进行语音识别,并将识别出的文字信息发送至所述终端;从所述终端接收反馈信息;以及所述网络侧设备根据所述反馈信息对所述语音信息进行语音训练。本发明还公开了相应的系统。通过本发明用户不需要在使用语音输入法之前按照提示文本进行语音训练,而是在使用过程中进行语音训练,大大提高了用户对语音输入法的用户体验。
  • 基于矢量量化的声纹识别方法及系统-201110450364.6
  • 霍春宝;赵立辉;崔文翀;张彩娟;曹景胜 - 辽宁工业大学
  • 2011-12-29 - 2012-06-20 - G10L15/06
  • 一种基于矢量量化的声纹识别方法及系统,具有良好识别性能和抗噪能力,识别效果比较好,建模数据少,判决速度快,而且复杂度不高。具体步骤如下:语音信号的采集;语音信号预处理;语音信号特征参数提取:采用MFCC参数,MFCC的阶数为12~16;模板训练:采用LBG聚类算法为系统中的每一个说话人建立一个码本存储在语音数据库中作为该说话人的语音模板;声纹辨识:通过将采集到的待识别语音信号特征参数与库中已建立的说话人语音模板进行比较,并根据加权欧式距离测度进行判断,若对应的说话人模板使得待识别的话者语音特征向量X具有最小平均距离测度,则认为识别出说话人。
  • 用于语音识别的深度结构的全序列训练-201110299678.0
  • D·俞;L·邓;A·S·A·穆罕默德 - 微软公司
  • 2011-09-20 - 2012-05-02 - G10L15/06
  • 本发明公开了用于语音识别的深度结构的全序列训练。本文公开了一种方法,该方法包括使处理器访问保留在计算机可读介质中的深度结构化模型的动作,其中该深度结构化模型包括带有所分配的权重的多个层、状态之间的转移概率、和语言模型分数。该方法还可包括使用基于序列而非一组不相关帧的优化准则来对该深度结构化模型的权重、转移概率和语言模型分数进行联合地充分优化的动作。
  • 基于置信度得分的语音标签方法和装置-201080001519.1
  • 何磊;赵蕤 - 株式会社东芝
  • 2010-06-29 - 2012-05-02 - G10L15/06
  • 本发明提供一种基于置信度得分的语音标签方法和装置。该基于置信度得分的语音标签方法包括:对于注册语音进行音素识别,以获得该注册语音的多个发音标签;为上述多个发音标签分别计算置信度得分;基于上述多个发音标签中每一个发音标签的置信度得分,从该多个发音标签中选择至少一个最优的发音标签;以及基于所选择的上述至少一个最优的发音标签制作与上述注册语音对应的语音标签词条,以添加到识别网络中。本发明在基于多发音注册的语音标签技术中,基于置信度得分来优化语音标签,以减小包含语音标签的识别网络的混淆度。
  • 处理语音识别的稀疏表示特征的方法和系统-201110282826.8
  • D·卡涅夫斯基;D·纳哈莫;B·拉马巴德兰;T·N·赛纳斯 - 国际商业机器公司
  • 2011-09-22 - 2012-04-18 - G10L15/06
  • 本发明涉及一种处理语音识别的稀疏表示特征的方法和系统。披露了用于生成和使用稀疏表示特征来提高语音识别性能的技术。具体地说,本发明的原理提供了基于稀疏表示样例的识别技术。例如,所述方法包括以下步骤。获取与语音识别系统关联的测试向量和训练数据集。选择所述训练数据集的子集。将所述测试向量与所述训练数据集的选定子集一起映射为由稀疏约束加权的线性组合以便形成新的测试特征集,其中由于所述稀疏约束而使所述训练数据集移动到更靠近所述测试向量。针对所述新的测试特征集训练声学模型。针对所述新的测试特征集训练的声学模型可用于对输入所述语音识别系统的用户语音进行解码。
  • 用于统计语言模型的自适应-201080015801.5
  • 大附克年;梅冈孝史 - 微软公司
  • 2010-03-26 - 2012-03-07 - G10L15/06
  • 通过将适当的限制应用到长期和短期记忆来抑制单词的意外的出现的体系结构。还通过利用限制来实现自适应的快速性。该体系结构包括历史组件,用于处理通过输出转换结果的转换过程对语音字符串的转换的用户输入历史,以及自适应组件,用于基于应用于在转换过程中影响单词出现的短期记忆的限制而使转换过程适应用户输入历史。该体系结构基于依赖于上下文的概率差(短期记忆)执行概率增加,并基于单词的前面的上下文的频率(长期记忆)在长期记忆和基准语言模型之间执行动态线性内插。
  • 一种抑郁情绪电话自动语音识别筛查系统-201110127517.3
  • 周景升;张新卿;田德财 - 首都医科大学宣武医院
  • 2011-05-17 - 2012-02-01 - G10L15/06
  • 本发明提供了一种抑郁情绪电话自动语音识别筛查系统,包含:录音/放音模块,用于通过Dialogic语音卡接通电话并进行录音或者放音;语音识别处理模块,用于接收所述录音/放音模块传来的原始语音,调用识别模型库进行语音识别,并将识别结果通过控制模块传给评估模块;评估模块,用于对所述语音识别模块的识别结果并进行评估,通过与数据库中保存的评价等级比较,得出评估结果并传给控制模块,以及最终给出评估评价;和控制模块,用于控制所述抑郁情绪电话自动语音识别筛查系统的工作流程,该模块还负责所述录音/放音模块、语音识别模块和评估模块之间的相互通信;其中,所述数据库保存问卷流程的系统问题、问卷问题、评价等级及评分标准和用户信息。
  • 一种基于近邻原则合成情感模型的说话人识别方法-201110284945.7
  • 杨莹春;陈力;吴朝晖 - 浙江大学
  • 2011-09-23 - 2012-01-25 - G10L15/06
  • 本发明公开了一种基于近邻原则合成情感模型的说话人识别方法,包括:(1)训练出参考语音和用户中性语音的模型;(2)提取GMM参考模型的中性-情感高斯分量映射集;(3)提取与用户的中性训练高斯分量邻近的若干中性参考高斯分量映射的情感参考高斯分量;(4)合成出用户的情感训练高斯分量,进而得到用户的情感训练模型;(5)合成出所有用户的GMM训练模型;(6)输入测试语音进行识别。本发明采用基于KL散度的近邻原则从语音库中提取若干与用户的中性训练语音相似的参考语音,用参考语音中的情感参考语音合成出用户的情感训练语音,改善了在训练语音与测试语音失配情况下说话人识别系统的性能,提高了说话人识别系统的鲁棒性。
  • 基于卷积非负矩阵分解的语音转换方法-201110267425.5
  • 张雄伟;孙健;曹铁勇;孙新建;黄建军;杨吉斌;邹霞;贾冲 - 中国人民解放军理工大学
  • 2011-09-09 - 2012-01-04 - G10L15/06
  • 本发明公开了一种基于卷积非负矩阵分解的语音转换方法,通过训练数据对变换模型进行训练,首先训练语音数据的时间对准及参数分解,使用卷积非负矩阵分解方法对STRAIGHT谱进行分析,分析源语音与目标语音的基音频率;基于训练模型对新输入语音进行转换:对于待转换的源语音数据采用STRAIGHT模型进行参数分解,基于卷积非负矩阵分解实现声道频谱参数的转换,基于训练阶段得到的基音频率的均值和方差,实现基音频率的转换,合成转换后的语音,即通过转换得到的STRAIGHT谱、基音频率及原始非周期分量合成转换后的语音。本发明提升了语音转换的训练效果,改善了变换语音的语音质量。
  • 声音识别装置-200980156033.2
  • 山崎道弘;石井纯;坂下博纪;野木和行 - 三菱电机株式会社
  • 2009-10-08 - 2011-12-28 - G10L15/06
  • 本发明提供一种声音识别装置,包括:声音输入部(11),该声音输入部(11)输入多次发声的声音;登记声音数据存储部(12),该登记声音数据存储部(12)对声音输入部(11)输入的多次发声的声音数据进行存储;发声稳定性检验部(13),该发声稳定性检验部(13)求出从登记声音数据存储部(12)读取的多次发声的声音数据之间的相似度,在相似度大于阈值T1的情况下,判定声音数据能够登记;以及标准模式生成部(14),该标准模式生成部(14)使用由发声稳定性检验部(13)判定为能够登记的声音数据来生成标准模式。
  • 一种基于MFCC远距离差值的鲁棒语音识别方法-201110258884.7
  • 赵斯培;邱小军 - 南京大学
  • 2011-09-05 - 2011-12-21 - G10L15/06
  • 本发明公开了一种基于梅尔频率倒谱系数(MFCC)远距离差值的鲁棒语音识别方法。本发明显著特点在于选用MFCC 4个采样点和6个采样点远距离差值作为语音识别特征参数,在基本不增加计算量和存储量的基础上比本领域通常使用的MFCC参数本身及其一阶差分系数作为特征参数时提高了鲁棒语音识别系统识别率20-40个百分点。
  • 自动语音识别声学模型的调整-200980154721.5
  • J·田 - 诺基亚公司
  • 2009-12-03 - 2011-12-14 - G10L15/06
  • 公开了一种用于调整声学模型的方法和系统。用户终端可以确定文本语料库的音素分布;确定调整声学模型之前以及之后、所述声学模型的声学模型增益分布;基于所述音素分布和所述声学模型增益分布来确定期望的音素分布;基于所述期望的音素分布来生成调整语句;以及生成请求用户说出所述调整语句的提示。
  • 语谱图互相关的驾驶员汉语语音控制系统-201120169192.0
  • 曹晓琳;王双维;王登峰;王杰;伏娟 - 吉林大学
  • 2011-05-25 - 2011-12-07 - G10L15/06
  • 本实用新型公开了语谱图互相关的驾驶员汉语语音控制系统,包括专用汉语语音识别控制装置(1)、硅麦克风(2)、红外线CCD摄像头(3)和汽车车载电子设备(4)。专用汉语语音识别控制装置(1)和硅麦克风(2)、红外线CCD摄像头(3)与汽车车载电子设备(4)电连接。专用汉语语音识别控制装置(1)包括DSP芯片(11)、视频AD模块芯片(12)、同步FIFO芯片(13)、语音编解码芯片(14)、CPLD芯片(15)、1号继电器(16)及2号继电器(17)。汽车车载电子设备(4)包括空调(4a)和后备箱锁(4b),空调(4a)与后备箱锁(4b)一端和2号继电器(17)与1号继电器(16)输出端电线连接。
  • 语音音节时长的自动归一化-201110184224.9
  • 特里·詹宁斯;保罗·若勒·麦克里斯 - 阿瓦雅公司
  • 2011-05-17 - 2011-11-23 - G10L15/06
  • 本发明涉及语音音节时长的自动归一化。一个很常见的问题是:当人们讲他们所习惯的语言以外的语言时,音节可能被说得比听者认为合适的更长或更短。这种情况的一个例子可在有很重日语口音的人说英语时被观察到。由于日语单词以元音结尾,因此本土日本人倾向于在应以辅音结尾的英语单词末尾添加元音。说明性地,本土日本人经常将“orange”发音为“orenji”。一个方面提供了一种自动语音纠正处理,该处理不必需要知道正讨论该水果;该系统只需要知道该讲话者习惯于日语,该收听者习惯于英语,“orenji”不是一个英文单词,以及“orenji”是英文单词“orange”的一种典型日语错误发音。
  • 一种对普通话重音进行层次化建模和预测的方法-201110200330.1
  • 陶建华;李雅 - 中国科学院自动化研究所
  • 2011-07-18 - 2011-11-23 - G10L15/06
  • 本发明公开了一种对普通话重音进行层次化建模和预测的方法,该方法采用层次化重音描述体系对普通话重音进行描述,包括:选择合适的重音描述体系,创建层级标注的重音语料库;训练生成韵律词重音预测模型;训练生成句重音预测模型;以及根据韵律词重音模型与句重音预测模型结果综合生成每个音节的重音标注结果。利用本发明,提高了重音模型的精细度,同时也保证了较高的重音预测正确率和召回率,进而提高合成语音的自然度和表现力,能够以更精确的描述语音中用于表现韵律凸显的重音现象,同时能够从任意输入的文本得到较为细致的重音等级标注结果。
  • 声音空间基准模型的在线自适应调节方法及装置和设备-201010155674.0
  • 贾磊;张丙奇;沈海峰;马龙;小沼知浩 - 松下电器产业株式会社
  • 2010-04-22 - 2011-11-09 - G10L15/06
  • 公开了一种在AV设备中用输入的AV流中包含的音频流对声音空间的基准模型进行在线自适应调节的方法和装置及设备。该方法包括步骤:估计音频流中每个声音事件的单一概率模型,所述声音事件具有单一的声学特征;针对事先存储的至少一个单一概率模型和各个声音事件的单一概率模型进行聚类,以更新所述声音空间的基准模型。利用上述方案,可以根据随时输入的AV流来自适应在线调节声音空间的基准模型,从而避免了聚类过程中的遗漏。即使对于较长AV流中的一小段声音事件,也能够实现正确的聚类。
  • 声音识别装置-200980149034.4
  • 铃木忠;石川泰;丸田裕三 - 三菱电机株式会社
  • 2009-10-20 - 2011-11-09 - G10L15/06
  • 由于采用了如下结构:一边利用第一语言切换单元(SW1)和第二语言切换单元(SW2),对为了生成声音标识串而使用的声音标准模型存储器(1)的语言、和保存所生成的声音标识串的声音标识存储器(2)的语言自动进行切换,一边利用所输入的用户说话声的特征矢量时间序列和声音标准模型的数据,来生成用于各种语言的、与所述输入的用户说话声相对应的声音标识串,并将其登录至声音标识存储器(2),因此,能生成用于各种语言的、与用户所发出的登录声音相对应的声音标识串,并将其作为用户词典来进行保存。其结果是,即使切换声音识别中使用的语言,也能利用用户所发出的登录声音来进行声音识别。
  • 基于声纹识别的移动终端隐私保护方法-201110179067.2
  • 佘堃;何元;吴娱 - 电子科技大学
  • 2011-06-29 - 2011-11-02 - G10L15/06
  • 本发明公开了一种基于声纹识别的移动终端隐私保护方法,包括语音信息特征的分析和提取、模型训练以及声纹识别。依据本发明所得到的声纹识别方法,不仅声纹识别的效率高,而且声纹识别的性能和识别效率与所说的文本和所用的语言无关。对说话人的语音长度也没有特殊的要求,只需要很短的几秒钟的语音信息即可用来获得说话人的语音特征信息,进行模型训练和识别。本发明的声纹识别算法在移动智能终端的应用,具有稳定新高和识别精度高的特点,而且训练过的语音特征的模型占用移动智能终端很少的内存空间。通过该声纹识别方法可以很好的保护用户移动智能终端中的私密信息,避免手机遗失时私有信息的泄露和被窃取。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top