[发明专利]语音唤醒方法在审

专利信息
申请号: 201910395636.3 申请日: 2019-05-13
公开(公告)号: CN110047471A 公开(公告)日: 2019-07-23
发明(设计)人: 唐远兵 申请(专利权)人: 深圳市智宇盟科技有限公司
主分类号: G10L15/05 分类号: G10L15/05;G10L15/22;G10L19/16
代理公司: 北京联瑞联丰知识产权代理事务所(普通合伙) 11411 代理人: 赵娜
地址: 518052 广东省深圳市*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种语音唤醒方法,具体包括以下步骤:开启录音:获取采样pcm音频数据;缓存PCM数据:将采集的pcm音频数据缓存在buffer里;语音端点检测:通过计算一定时间内采样数据的能量值,判断语音的开始点;AMR编码:通过C步骤确定语音的开始点后,将保留当前的缓存PCM音频数据,并对pcm音频数据做AMR编码,直到确定语音结束;上传AMR数据:将D步骤编码后的AMR音频数据上传到服务器;服务器语音识别:服务器识别AMR音频数据,检测是否为预先设定的指令;服务器下发指令:如果F步骤中服务器识别成功并检测为预先设定的指令,向设备发送唤醒指令。设备唤醒:设备收到唤醒指令后唤醒。本发明检测效率较高,占用资源少,同时方便功能扩展,降低了成本。
搜索关键词: 语音 缓存 服务器识别 唤醒指令 音频数据 唤醒 开始点 指令 检测 服务器 语音端点检测 服务器语音 步骤编码 步骤确定 采样数据 方便功能 设备发送 设备唤醒 占用资源 采样 上传 录音 采集 保留 成功
【主权项】:
1.一种语音唤醒方法,其特征在于,具体包括以下步骤:A.开启录音:获取采样pcm音频数据;B.缓存PCM数据:将采集的pcm音频数据缓存在buffer里;C.语音端点检测:通过计算一定时间内采样数据的能量值,判断语音的开始点;D.AMR编码:通过C步骤确定语音的开始点后,将保留当前的缓存PCM音频数据,并对pcm音频数据做AMR编码,直到确定语音结束;E.上传AMR数据:将D步骤编码后的AMR音频数据上传到服务器;F.服务器语音识别:服务器识别AMR音频数据,检测是否为预先设定的指令;G.服务器下发指令:如果F步骤中服务器识别成功并检测为预先设定的指令,向设备发送唤醒指令。H.设备唤醒:设备收到唤醒指令后唤醒。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市智宇盟科技有限公司,未经深圳市智宇盟科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910395636.3/,转载请声明来源钻瓜专利网。

同类专利
  • 语音端点检测方法、装置、设备及存储介质-201910521084.6
  • 魏韬;马骏;王少军 - 平安科技(深圳)有限公司
  • 2019-06-17 - 2019-10-15 - G10L15/05
  • 本发明涉及人工智能技术领域,公开了一种语音端点检测方法,包括以下步骤:获取待检测的输入语音以及预置语音帧检测模型;对所述输入语音进行分帧处理,得到多个带时序的语音帧;依次将所述输入语音的各语音帧输入所述语音帧检测模型进行检测,输出各语音帧对应的第一检测结果;依次对所述输入语音的各语音帧进行谐波能量检测,得到各语音帧对应的第二检测结果;基于所述第一检测结果与所述第二检测结果,确定各语音帧对应的帧类别;基于各语音帧对应的帧类别,确定所述输入语音的语音开始端点与语音结束端点。本发明还公开了一种语音端点检测装置、设备及计算机可读存储介质。本发明提升了语音端点检测的准确率。
  • 一种实现快速语音文字记录的方法-201910517798.X
  • 徐先胜 - 广州微声技术有限公司
  • 2019-06-14 - 2019-09-20 - G10L15/05
  • 本发明涉及一种实现快速语音文字记录的方法,该方法中由于通过主机端进行前端端点检测,提取到有效的录音文件,后期在后台服务器端不再需要对录音文件进行语音识别的预处理以及背景噪音干扰的过滤,因此,可有效提高后期文件识别速度,也缓解了后台服务器计算压力,另外,对通过端点检测的有效音频进行时间标记,后期可快速、准确的复原各个发言人的原始发言内容,且便于现场及事后查询、阅读及纠正复原原始发言内容。
  • 语音端点检测方法及设备-201810606354.9
  • 李超;朱唯鑫 - 百度在线网络技术(北京)有限公司
  • 2018-06-13 - 2019-09-17 - G10L15/05
  • 本发明实施例提供一种语音端点检测方法及设备,该方法包括对待检测语音进行分帧处理,得到多个待检测的音帧;获取各待检测音帧的声学特征,并将各待检测音帧的声学特征依次输入至语音活动性检测VAD模型;其中,VAD模型用于将待检测语音中的前N个语音帧分类为噪声帧、将第N+1个语音帧至最后一个语音帧分类为语音帧以及将最后一个语音帧之后的M个噪声帧分类为语音帧,N和M为整数;根据VAD模型输出的分类结果确定语音段的起点和终点;其中,起点对应首个被分类为语音帧的音帧,终点对应最后一个被分类为语音帧的音帧。本发明实施例可以提高语音端点检测的准确度。
  • 一种引入大数据分析的自然语言模糊边界确定方法-201610926533.1
  • 张福泉 - 闽江学院
  • 2016-10-31 - 2019-09-17 - G10L15/05
  • 本发明涉及一种引入大数据分析的自然语言模糊边界确定方法,包括以下步骤:进行自然语言解码识别分析:从原始波形语言数据中提取的声学特征经过训练得到声学模型,与发声词典、语言模型组成网络,对新来的语言提取特征,经声学模型表示,通过维特比解码得到识别结果;接着进行基于深度学习的自然语言特征识别;在上述步骤的基础上,采用大数据分析法对自然语言模糊边界进行确定;采用支持向量机法,根据自然语言特征的显著性进行划分,再根据其约束条件,结合大数据分析法,确定自然语言模糊边界。本发明引入大数据分析的自然语言模糊边界确定方法,提高了查全率和准确率。
  • 一种音频数据处理方法及装置-201910390481.4
  • 刘伊恩;郑脊萌;于蒙;黎韦伟;高毅 - 腾讯科技(深圳)有限公司
  • 2019-05-10 - 2019-08-13 - G10L15/05
  • 本发明实施例公开了一种音频数据处理方法及装置,该音频数据处理方法包括:获取拾音信号,根据第一驾驶方向参数信息,确定拾音信号所包含的第一预处理信号,根据第二驾驶方向参数信息,确定拾音信号所包含的第二预处理信号;根据第一预处理信号与第二预处理信号对应的信噪比,确定分离参数信息,根据分离参数信息,确定第一预处理信号对应的第一分离信号,以及第二预处理信号对应的第二分离信号;获取第一分离信号与第二分离信号所包含的异常信号,将异常信号进行消除,得到第一驾驶方向对应的第一音频信号,以及第二驾驶方向对应的第二音频信号。采用本发明实施例,可以提高语音识别的准确率。
  • 语音唤醒方法-201910395636.3
  • 唐远兵 - 深圳市智宇盟科技有限公司
  • 2019-05-13 - 2019-07-23 - G10L15/05
  • 本发明公开了一种语音唤醒方法,具体包括以下步骤:开启录音:获取采样pcm音频数据;缓存PCM数据:将采集的pcm音频数据缓存在buffer里;语音端点检测:通过计算一定时间内采样数据的能量值,判断语音的开始点;AMR编码:通过C步骤确定语音的开始点后,将保留当前的缓存PCM音频数据,并对pcm音频数据做AMR编码,直到确定语音结束;上传AMR数据:将D步骤编码后的AMR音频数据上传到服务器;服务器语音识别:服务器识别AMR音频数据,检测是否为预先设定的指令;服务器下发指令:如果F步骤中服务器识别成功并检测为预先设定的指令,向设备发送唤醒指令。设备唤醒:设备收到唤醒指令后唤醒。本发明检测效率较高,占用资源少,同时方便功能扩展,降低了成本。
  • 一种包含声母的音节切分方法及装置-201610270526.0
  • 尹恒;何凌;柳银;李精韬 - 四川大学
  • 2016-04-27 - 2019-07-12 - G10L15/05
  • 本发明公开了一种包含声母的音节切分方法及装置,涉及语音信号处理技术领域。本发明技术要点包括:步骤1:获取一段语音信号;该语音信号包括至少一个音节,且该语音信号包含的音节都是带有声母的音节;步骤2:识别所述语音信号中的各个连续词组的起点及终点;步骤3:确定各个连续词组中的各个音节间的粗切分点;步骤4:根据连续词组的起点、终点及音节粗切分点对各个连续词组中的各个音节进行精确切分。
  • 用于识别语音的方法和装置-201910183992.9
  • 贺学焱;李俊博;欧阳能钧 - 百度在线网络技术(北京)有限公司
  • 2019-03-12 - 2019-05-03 - G10L15/05
  • 本公开的实施例公开了用于识别语音的方法和装置。该方法的一具体实施方式包括:响应于检测到平均能量大于预设的起点门限的第一个语音帧,将第一个语音帧和第一个语音帧之后的语音帧实时发送给识别引擎,得到语音识别的中间识别结果;响应于在第一个语音帧之后的语音帧中检测到平均能量小于预设的尾点门限的语音帧,开始计时;若在预定的尾点超时时间内未检测到平均能量大于等于预设的尾点门限的语音帧,检测中间识别结果是否与预设的语句集合匹配;若不匹配,则停止向识别引擎发送语音帧,将中间识别结果作为最终结果输出。该实施方式能够提高有停顿的语音的识别响应速度。
  • 语音交互方法、装置、设备及计算机可读介质-201811102293.9
  • 魏利开 - 百度在线网络技术(北京)有限公司
  • 2018-09-20 - 2019-01-04 - G10L15/05
  • 本发明提出一种语音交互方法、装置、设备和计算机可读介质。所述语音交互方法,包括:连续监听用户输入的语音信息;对监听到的语音信息进行识别,得到识别结果;将所述识别结果与指令库中的动作指令依次进行匹配;当匹配到指令库中的动作指令时,执行所述的动作指令。本发明实施例可以任意定义不同的动作指令作为语音智能设备的唤醒词,当用户需要通过语音对语音智能设备进行操作时,仅需要直接输入对应的语音命令即可,不需要再输入一个与语音命令没关系的唤醒词。另外,动作指令可以自行设定,任意调整,可以更加适应用户的操作习惯。
  • 命令词语音检测方法、装置、设备和存储介质-201810764304.3
  • 雷延强 - 广州视源电子科技股份有限公司
  • 2018-07-12 - 2018-12-04 - G10L15/05
  • 本发明实施例公开了一种命令词语音检测方法、装置、设备和存储介质,该方法包括:应用深度神经网络模型确定预处理后的命令词语音的目标起点和目标终点,根据所述目标起点和所述目标终点确定有效命令词语音片段;应用所述深度神经网络算法模型确定所述有效命令词语音片段中的音素分类结果,根据所述音素分类结果确定命令词输出结果。对命令词语音端点的检测结果更准确,确定目标起点和目标终点时不额外增加计算复杂度。
  • 一种语音端点检测方法及语音识别方法-201710076757.2
  • 范利春 - 芋头科技(杭州)有限公司
  • 2017-02-13 - 2018-08-21 - G10L15/05
  • 本发明公开了一种语音端点检测方法及语音识别方法,属于语音识别技术领域;方法包括:提取语音数据的语音特征并输入至静音模型中;静音模型根据语音特征输出标签用于表示语音数据是否为静音帧;根据连续帧的语音数据的标签确认一段语音的语音端点:在非激活状态,若连续出现非静音帧的语音数据的长度大于一预设的第一阈值,则判断第一帧为非静音帧的语音数据为一段语音的起始端点;在激活状态,若连续出现静音帧的语音数据的长度大于一预设的第二阈值,则判断第一帧为静音帧的语音数据为一段语音的结束端点。上述技术方案的有益效果是:解决现有技术中语音端点检测不准确以及对于检测环境要求过高的问题。
  • 基于小波变换的多重分形维数端点检测方法-201510169332.7
  • 罗斌;赵彤洲 - 武汉工程大学
  • 2015-04-10 - 2018-08-03 - G10L15/05
  • 本发明公开了一种基于小波变换的多重分形维数端点检测方法,该方法包括以下步骤:使用小波变换对语音信号进行去噪处理,得到小波重构去噪后的语音信号;对小波重构之后的语音信号进行分帧处理;计算语音信号的多重分形维数,得到每一个帧窗口的多重分形维数;分别计算每一个帧窗口的多重分形维数与语音段的多重分形维数和非语音段的多重分形维数的相关性;绘制两个相关性函数的曲线图,两曲线的交汇处即为语音信号的起始点和结束点。本发明方法能在低信噪比的情况下有效进行语音信号的端点检测。
  • 基于五门限的声音端点检测方法及其应用-201711225920.3
  • 艾竹轩 - 无锡同芯微纳科技有限公司
  • 2017-11-29 - 2018-05-04 - G10L15/05
  • 本发明揭示了基于五门限的声音端点检测方法,通过判断一帧信号的平均帧能量差与平均帧能量差低门限、平均帧能量差高门限的大小以及平均帧过零率与平均帧过零率低门限的大小来确定其处于静音段、过渡段或有效音段,在过渡段后结合平均帧能量差步长及平均帧过零率步长来判断是否进入有效音段,以及在有效音段后,判断不在有效音段后信号所在的状态。本方法引入短时平均能量差作为判别的条件,增加了平均帧能量差步长、平均帧过零率步长作为在过渡段之后判断是否进入有效音段的条件,提高了对进入有效音段的要求,各门限的设定,提高了端点检测的准确性,另外,通过对有效音段结束后跳变到的状态进行判断,也有利于保证后续有效音段检测的精确性。
  • 一种声音事件识别方法-201710776733.8
  • 张文涛;韩莹莹;徐韶华;黎恒 - 桂林电子科技大学
  • 2017-08-31 - 2018-01-05 - G10L15/05
  • 本发明涉及一种声音事件识别方法,主要解决现有技术中的在强大干扰情况下声音识别准确率低和鲁棒性差的问题。通过采用以下步骤在不同干扰环境下对声音进行采集和处理,形成声音数字信号;通过滤波器组对所述声音数字信号进行子带滤波,得到音频信号的耳蜗谱图;将所述耳蜗谱图的一部分训练成卷积神经网络模型,建立声音识别模板;将所述耳蜗谱图的另一部分代入所述卷积神经网络模型,进行声音的识别的准确率检测;上述方法较好的解决了该问题,能够用于交通环境下的声音事件识别。
  • 基于动态累积量估计的语音信号端点检测方法-201510222045.8
  • 吴小培;吕钊;罗雅琴;张超;周蚌艳;张磊;郭晓静;高湘萍 - 安徽大学
  • 2015-04-30 - 2017-12-12 - G10L15/05
  • 本发明公开了一种基于动态累积量估计的语音端点检测方法,包括了基于滑动窗的高阶累积量递推计算和基于滑动窗峭度的端点检测。基于滑动窗的高阶累积量递推计算是指对原始样本数据加矩形窗,对窗内数据进行累积量估计,每滑动一个样本点对窗内数据进行更新,实现累积量的动态估计。基于滑动窗峭度的端点检测是结合高阶累积量递推计算方法计算滑动窗峭度和能量特征进行语音信号的端点检测。本发明相比现有技术具有以下优点本发明中的基于动态累积量估计的语音信号端点检测方法是基于滑动窗峭度、能量双门限的端点检测,参数滑动窗峭度对语音段起始点具有较强敏感性且对噪声具有更好的抗干扰能力,在噪声环境下具有较好的鲁棒性。
  • 一种汉字语音片段的确定方法及装置-201710516325.9
  • 刘莙怡;陈健 - 上海青声网络科技有限公司
  • 2017-06-29 - 2017-11-07 - G10L15/05
  • 本申请提供了一种汉字语音片段的确定方法及装置,方法包括计算待处理语音信号中存在相邻的前一信号点的各信号点强度值的绝对值,与相邻的前一信号点强度值的绝对值的差值;分别确定多个强度差值开始大于零的第一信号点与多个强度差值减小为零的第二信号点;分别判断每个第一信号点到相邻的第二信号点所包含的语音片段是否同时存在辅音与元音;将同时存在辅音与元音的语音片段中的第一信号点所在时刻,确定为一个汉字的起始时刻;按照待处理语音信号中各信号点的顺序,将两个相邻的汉字的起始时刻之间所包含的语音片段,确定为一个汉字对应的语音片段。通过本申请实施例,不需要训练复杂的语音识别模型,直接对待处理语音信号在时域进行操作。
  • 一种基于GMM模型的语音激活检测方法-201710453487.2
  • 羊开云;高可攀;韩翀蛟;徐晓峰;李夏宾 - 深圳市潮流网络技术有限公司;潮流网络有限公司
  • 2017-06-15 - 2017-09-05 - G10L15/05
  • 本发明主要披露了一种基于GMM模型的语音激活检测方法,包括以下操作数据训练建立训练样本库和用EM核心算法分别训练语音信号GMM模型、噪声信号GMM模型;数据测试对实时通话进行检测,包括分帧处理、特征提取、概率计算;数据判断根据语音信号概率及噪声信号概率判断测试帧信号为语音信号还是噪声信号。本发明先用噪声信号及语音信号预先训练GMM模型参数,再对实时通话信号进行检测判别其为噪声信号还是语音信号。具体为对提取的信号特征,根据预先训练的GMM模型参数分别计算其为噪声的概率以及其为语音的概率,其计算复杂度低,计算实时性强。
  • 一种语音起始点和终止点的检测方法-201710015492.5
  • 陈桂林 - 上海优同科技有限公司
  • 2017-01-10 - 2017-08-11 - G10L15/05
  • 本发明公开了一种语音起始点的检测方法,包括以下步骤,S1,接收输入的待检测语音信号;S2,对待检测语音信号进行时频变换;S3,在频域对经步骤S2处理后的信号进行滤波;S4,对步骤S3处理后的信号进行增强处理;S5,在频域计算经步骤S4处理后的信号的共振峰的个数以及不同频带的能量占比;S6,在时域计算经步骤S4处理后的信号的过零交叉率和最大最小幅值比;S7,通过步骤S5和S6的计算值判定语音信号的起点。该检测方法,综合了时域和频域的处理方法,检测精度高,同计算复杂程度低,且抗噪能力腔,通过信号增强和特定频带的检测,可以抑制大部分低频信号分量和高频信号分量的干扰,提升鲁棒性。
  • 采用感知语谱结构边界参数的语音端点检测算法-201410175090.8
  • 吴迪;赵鹤鸣;陶智 - 苏州大学
  • 2014-04-29 - 2017-02-15 - G10L15/05
  • 本发明属于语音识别领域,公开了一种采用感知语谱结构边界参数(PSSB)的语音端点检测算法。在对含噪语音进行基于听觉感知特性的语音增强之后,针对语音信号的连续分布特性与残留噪声的随机分布特性之间的不同点,对增强后语音的时‑频语谱进行二维增强,从而进一步突出连续分布的纯净语音的语谱结构。通过对增强后语音语谱结构的二维边界检测,提出PSSB参数,并用于端点检测。实验结果表明,在白噪声‑10dB到10dB的各种信噪比环境下,采用PSSB参数的端点检测算法更有效地检测出语音的端点。在‑10dB的极低信噪比下,提出的方法仍然有75.2%的正确率。
  • 基于统计模型的语音端点检测方法及装置-201510587721.1
  • 贺利强;潘复平 - 百度在线网络技术(北京)有限公司
  • 2015-09-15 - 2016-11-23 - G10L15/05
  • 本发明提出一种基于统计模型的语音端点检测方法及装置,其中,该方法包括:接收输入的待检测语音信号;分帧提取待检测语音信号的第一语音特征信息,并对第一语音特征信息进行抗噪处理,以生成待检测语音信号的第二语音特征信息;根据第二语音特征信息和声学模型生成待检测语音信号的识别结果;根据识别结果和预设静音检测算法初步检测出待检测语音信号的语音端点;以及计算待检测语音信号的置信度信息,并根据置信度信息对语音端点进行调整。本发明实施例的基于统计模型的语音端点检测方法,准确定位了待检测语音信号的语音端点,提高了语音端点检测的准确率,进而可提高语音识别的准确性,提高语音识别的性能。
  • 一种基于识别结果时间边界的时间位置关键词命中分析方法-201610208299.9
  • 刘郁松;何国涛;李全忠;蒲瑶 - 普强信息技术(北京)有限公司
  • 2016-04-06 - 2016-08-03 - G10L15/05
  • 本发明公开了一种基于识别结果时间边界的时间位置关键词命中分析方法,根据识别结果中的关键词时间位置进行拆分,计算出每个字符的时间位置;针对字符时间位置进行索引,统计出来一个语音中,每个字符出现的时间位置,并建立到倒排索引中;定义文法规则语法,引入“~”关键字,描述一个字符出现的时间位置;根据字符查询出每个字符出现的时间位置,并遍历出所有字符时间在10s内,同时每个字符紧挨着,并且顺序和查询词语相同。该方法能够识别结果中的文本时间位置信息,可以获取到每一个字符在录音对话中出现的时间点,对时间进行分析可以支持功能。
  • 音频数据的编码方法及解码方法-201210487489.0
  • 陶建华;刘斌;潘诗锋 - 中国科学院自动化研究所
  • 2012-11-27 - 2013-04-10 - G10L15/05
  • 本发明提供了一种音频数据的编码方法和解码方法。该编码方法包括:获取原始音频,通过短时能量和短时过零率进行端点检测,剔除原始音频中的非音频数据,获得语音段数据;从语音段数据提取特征参数,通过已训练的隐马尔科夫模型和Viterbi算法,对每帧语音段数据进行状态识别,确定状态序列和状态时长;以及对状态序列和状态时长进行编码,生成音频数据包。本发明可以在低编码速率的情况下,保持较高的语音音质。
  • 用于执行音频和相应文本转录的同步并确定该同步的置信值的方法和系统-201180035459.X
  • O.托迪克 - 沙扎姆娱乐有限公司
  • 2011-05-16 - 2013-03-27 - G10L15/05
  • 本发明提供了用于执行音频与相应文本转录的同步并确定定时同步的置信值的方法和系统。可以用语音识别在正向和反向上同步音频和相应文本(例如副本),以输出时间注释的音频-歌词同步的数据。可以计算量度以量化和/或限制同步的置信。基于该量度,示例实施例描述了一种方法,用于增强自动同步过程,以可能使隐马尔科夫模型(HMM)适应同步音频,用于在语音识别时使用。其他例子描述了用于选择合适的HMM来使用的方法。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top