[发明专利]一种语音流识别方法、装置、存储介质及服务器在审

专利信息
申请号: 201910633645.1 申请日: 2019-07-15
公开(公告)号: CN110491370A 公开(公告)日: 2019-11-22
发明(设计)人: 史彩庆;胡凯;张岱;谭星;舒景辰 申请(专利权)人: 北京大米科技有限公司
主分类号: G10L15/04 分类号: G10L15/04;G10L15/22
代理公司: 11528 北京恒博知识产权代理有限公司 代理人: 于利晓<国际申请>=<国际公布>=<进入
地址: 100007 北京市朝*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 本申请实施例公开了一种语音流识别方法、装置、存储介质及服务器,其中,方法包括:接收用户终端发送的所采集到的语音流,检测所述语音流中的停顿信息,所述停顿信息包括至少一个停顿位置以及每个停顿位置对应的停顿时长;在所述至少一个停顿位置中获取所述停顿时长大于预设时长的目标停顿位置集合,基于所述目标停顿位置集合对所述语音流进行切分,得到至少一个语音片段;对所述至少一个语音片段分别进行识别,得到所述至少一个语音片段对应的识别结果,将所述识别结果发送至所述用户终端。因此,采用本申请实施例,通过对语音流进行切分为语音片段进行识别,可以提高语音识别准确率,提升用户体验。
搜索关键词: 停顿位置 语音流 语音片段 停顿信息 用户终端 时长 停顿 集合 存储介质 结果发送 用户体验 语音识别 预设时长 准确率 申请 服务器 采集 发送 检测
【主权项】:
1.一种语音流识别方法,其特征在于,所述方法包括:/n接收用户终端发送的所采集到的语音流,检测所述语音流中的停顿信息,所述停顿信息包括至少一个停顿位置以及每个停顿位置对应的停顿时长;/n在所述至少一个停顿位置中获取所述停顿时长大于预设时长的目标停顿位置集合,基于所述目标停顿位置集合对所述语音流进行切分,得到至少一个语音片段;/n对所述至少一个语音片段分别进行识别,得到所述至少一个语音片段对应的识别结果,将所述识别结果发送至所述用户终端。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大米科技有限公司,未经北京大米科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910633645.1/,转载请声明来源钻瓜专利网。

同类专利
  • 语音直播间的直播入口显示方法、相关设备及存储介质-201910857177.6
  • 黄灵 - 腾讯科技(深圳)有限公司
  • 2019-09-11 - 2020-02-14 - G10L15/04
  • 本发明公开了语音直播间的直播入口显示方法、相关设备及存储介质,其中,语音直播间的直播入口显示方法包括:获取语音直播间中主播客户端的直播语音,得到直播语音音频;对所述直播语音音频进行分段处理,得到多个语音音频段;根据所述语音直播间的热度信息和主题信息,确定所述多个语音音频段中每个语音音频段的综合分值;根据所述综合分值从所述多个语音音频段中选取目标语音音频段;将所述目标语音音频段的播放入口在所述语音直播间的直播入口进行显示。本发明提高了用户筛选语音直播间的效率,用户体验效果提升。
  • 完整语音内容递归识别方法-201710449747.9
  • 谢国雄 - 上海适享文化传播有限公司
  • 2017-06-14 - 2020-02-04 - G10L15/04
  • 本发明涉及一种完整语音内容递归识别方法。为了提高语音识别准确率而设计。本发明所述的方法包括:初步识别每段子语音,并对每段子语音分别采用词语切割归类、语法单位审查和静态语义审查分析出每段子语音的语义,计算每段子语音的初步识别、语义分析的置信度;对识别结果中每个识别版本根据置信度重新排序来纠正本段的识别结果,对最初的S2中若干段子语音两两合并变成新的“合并子语音”,分别进行语音初步识别、语义分析,计算每段“合并子语音”的初步识别、语义分析的置信度,然后重复此合并步骤直到合并成最初完整的句子通过切割与合并这2个方向上的递归最终得到整个主语音的识别结果集合以及对应的语意理解结果集合。
  • 一种语音结束端点检测方法及装置-201910876235.X
  • 龙嘉裕 - 华为技术有限公司
  • 2019-09-17 - 2020-01-14 - G10L15/04
  • 本申请实施例提供一种语音结束端点检测方法及装置,其中方法包括:获取用户输入的语音信号,并将所述语音信号转换为文本信息;确定所述文本信息对应的语境类型,和/或所述语音信号中的非语言特征信息;根据所述语境类型和/或所述非语言特征信息确定检测时长;识别所述文本信息中的每个字在所述语音信号中对应的发音区间,当确定所述文本信息中的第一字的发音区间之后的所述检测时长内,不包括第二字的发音区间,则将所述第一字在所述语音信号中对应的发音区间的结束时间点作为第一端点;当确定所述第一字所处的句子的语义结构完整时,将第一端点作为所述第一字所处的句子在所述语音信号中的语音结束端点。
  • 语料获取方法、电子装置及存储介质-201910915970.7
  • 李晋;杜松;丁红玉 - 招商局金融科技有限公司
  • 2019-09-25 - 2020-01-10 - G10L15/04
  • 本发明涉及语音语义技术领域,提供了一种语料获取方法、电子装置及计算机存储介质,该方法包括:获取待处理的录音文件按预设筛选规则筛选出多段有效的录音音频输入自动语音识别系统,得到对应的第一文本并进行关键词标记,将标记后的每份第一文本及其对应的录音音频设置为一份备选语料;再将每份备选语料中的录音音频输入预先训练的语音识别模型得到对应的第二文本;最后,计算每份备选语料对应的第一文本及第二文本的余弦相似度,当所述余弦相似度值超过预设阈值时,判断所述备选语料为目标语料并存储至语料库。本发明实现从大量的录音文件中自动甄别出有效的录音音频,并根据有效的录音音频得到有效的语料,进而提高语料获取的准确性。
  • 智能语音处理方法和装置-201810575092.4
  • 李鑫;孟通;韩冬 - 北京深鉴智能科技有限公司
  • 2018-06-06 - 2019-12-31 - G10L15/04
  • 本发明公开了一种智能语音处理方法和装置。所述方法包括:对输入的语音进行分帧处理以获取多个帧的断句参数;将所述多个帧的断句参数作为特征值输入经训练的人工神经网络(ANN),所述ANN包括循环神经网络(RNN);以及将所述RNN的输出特征送入全连接层,以判定输入的每个帧是否为断句点。优选地,所述RNN可以是长短时记忆(LSTM)神经网络或门控循环单元(GRU)神经网络,并且所述ANN还可以是CNN后接RNN的结构。该方案能够利用后续语音识别处理中所需的神经网络或神经网络计算平台,对输入的长句语音进行智能断句,由此实现与智能语音识别相配合的精准断句方案。
  • 用于检测语音的端点的方法和装置-201810792887.0
  • 房伟伟 - 百度在线网络技术(北京)有限公司
  • 2018-07-18 - 2019-12-20 - G10L15/04
  • 本申请实施例公开了用于检测语音的端点的方法和装置。该方法的一具体实施方式包括:基于获取到的音频数据,生成音频帧序列,其中,生成的音频帧序列中的音频帧与音频帧类型相对应,音频帧类型为语音类型或非语音类型;对于音频帧序列中的语音类型的音频帧,确定声源发出该音频帧对应的声音时的位置信息;根据音频帧序列中的音频帧对应的音频帧类型和位置信息,确定音频帧序列对应的音频中语音的端点。该实施方式提供了新的检测语音的端点的方式。
  • 一种语音处理方法、装置、电子设备和存储介质-201910829426.0
  • 聂镭;沙露露;聂颖 - 龙马智芯(珠海横琴)科技有限公司
  • 2019-09-03 - 2019-11-29 - G10L15/04
  • 本发明公开了语音处理方法,通过本发明,通过端点检测对语音中非语音部分进行切除,获得若干第一语音片段;对所述若干第一语音片段进行贝叶斯信息准则BIC检测,获得说话人转变点;将所述说话人转变点作为分割点,对所述若干语音片段进行分割,获得若干第二语音片段;提取所述第二语音信号片段的语音特征形成特征向量,根据所述特征向量对所述第二语音片段进行分类;根据预设的关键词,对所述第二语音片段的类别进行校正,因此,可以改善现有的说话人分割聚类算法对于复杂业务场景的电话语音录音,算法处理效果不理想的问题,提高了对语音的说话人准确快速识别的效果。
  • 一种语音切分的方法、装置、设备和计算机存储介质-201810816633.8
  • 孙建伟 - 百度在线网络技术(北京)有限公司
  • 2018-07-24 - 2019-11-26 - G10L15/04
  • 本发明提供了一种语音切分的方法、装置、设备和计算机存储介质,其中方法包括:确定第一语音与第二语音的互相关度,其中所述第二语音为对所述第一语音进行录制后得到的语音,所述第一语音由两个以上的第一语音段拼接而成;基于所述互相关度对时间标签进行校准,所述时间标签包含各第一语音段在第一语音中的开始时间和结束时间;利用校准后的时间标签,对所述第二语音进行切分,得到两个以上的第二语音段。本发明能够使得校准后的时间标签与第二语音更好地对齐,从而提高对第二语音的切分准确性。
  • 一种语音流识别方法、装置、存储介质及服务器-201910633645.1
  • 史彩庆;胡凯;张岱;谭星;舒景辰 - 北京大米科技有限公司
  • 2019-07-15 - 2019-11-22 - G10L15/04
  • 本申请实施例公开了一种语音流识别方法、装置、存储介质及服务器,其中,方法包括:接收用户终端发送的所采集到的语音流,检测所述语音流中的停顿信息,所述停顿信息包括至少一个停顿位置以及每个停顿位置对应的停顿时长;在所述至少一个停顿位置中获取所述停顿时长大于预设时长的目标停顿位置集合,基于所述目标停顿位置集合对所述语音流进行切分,得到至少一个语音片段;对所述至少一个语音片段分别进行识别,得到所述至少一个语音片段对应的识别结果,将所述识别结果发送至所述用户终端。因此,采用本申请实施例,通过对语音流进行切分为语音片段进行识别,可以提高语音识别准确率,提升用户体验。
  • 一种可完善语义信息的空管指令翻译方法-201910723494.9
  • 孔维国 - 北京悠数智能科技有限公司
  • 2019-08-07 - 2019-11-22 - G10L15/04
  • 本发明公开了一种可完善语义信息的空管指令翻译方法,包括以下步骤:获取两种编码表示的空管指令文字;将指令切分成多条句子,并创建one‑hot编码;建立深度网络模型;利用训练数据训练深度神经网络得到空管指令语义完善翻译引擎;最后运用得到的引擎,将空管指令由一种编码的表示翻译转换为另一种编码的表示。其中,深度神经网络使用带注意力机制模块和残差网络的序列到序列结构,encoder作为特征提取器,decoder作为语义解析器,并由注意力机制模块进行连接处理,通过softmax分类器进行分类学习,最终进行语义完善和翻译转换时通过束搜索(beam search)获得最优结果。本发明以人工智能深度学习引擎为核心,具有极强的专业适用性和准确率,数据量依赖程度更低的优点,在空管指令语义完善和翻译转换上表现优异。
  • 一种基于双机器识别的语音识别系统及方法-201910764021.3
  • 刘春英 - 菏泽学院
  • 2019-08-19 - 2019-11-15 - G10L15/04
  • 本发明公开了一种基于双机器识别的语音识别方法,涉及语音识别技术领域,其包括以下步骤:S1,去噪模型接收语音采集模块采集到的语音信息,按照设定的参数对语音信息进行去噪;S2,去噪后的语音信息被输入到语音识别模型内按照设定的参数进行语音识别;S3,语音识别完成后,结果识别模块对识别结果进行判定,当识别结果的准确率小于设定的阈值时,检测去噪模型与语音识别模型的准确性;S4,对去噪模型和/或语音识别模型的参数进行反向训练更新,本发明的有益效果是:语音识别效率高,同时由于特征向量序列具有与其匹配的标签序列,在后续识别结果不够精确时,能够方便的找出问题所在,及时的更改参数或重新进行训练等,以保证结果的准确性。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top