[发明专利]用于处理口头话语流的方法、系统和存储介质有效

专利信息
申请号: 201710682459.8 申请日: 2017-08-10
公开(公告)号: CN107808665B 公开(公告)日: 2021-12-07
发明(设计)人: A·L·罗斯;G·D·卡达克;N·J·彼得森;B·L·杨;J·J·李-巴隆;J·S·克罗 申请(专利权)人: 联想企业解决方案(新加坡)有限公司
主分类号: G10L15/183 分类号: G10L15/183;G10L15/22;G10L15/24;G10L15/26;G10L25/51
代理公司: 北京市金杜律师事务所 11256 代理人: 王茂华
地址: 新加*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要: 发起口头话语流的语音识别。此后,例如关于流,检测口头话语停止事件以停止语音识别。口头话语停止事件不同于口头话语流中的暂停或中止。响应于检测到口头话语停止事件,停止口头话语流的语音识别,而口头话语流继续进行。在停止口头话语流的语音识别之后,引起动作被执行,所述动作与从流的开始直到口头话语停止事件的口头话语相对应。
搜索关键词: 用于 处理 口头 话语 方法 系统 存储 介质
【主权项】:
一种方法,包括:在发起对口头话语流的语音识别之后,由发起对所述流的所述语音识别的计算设备检测用于停止所述语音识别的口头话语停止事件,所述口头话语停止事件不同于所述口头话语流中的暂停或中止;响应于检测到所述口头话语停止事件,由所述计算设备停止对所述口头话语流的所述语音识别,而所述口头话语流继续进行;以及在停止对所述口头话语流的所述语音识别之后,由所述计算设备引起与从所述流的开始直到所述口头话语停止事件的所述口头话语相对应的动作被执行。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于联想企业解决方案(新加坡)有限公司,未经联想企业解决方案(新加坡)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710682459.8/,转载请声明来源钻瓜专利网。

同类专利
  • 上下文建模的语义通信编码传输和接收方法及相关设备-202310622895.1
  • 戴金晟;王思贤;王俊;秦晓琦;牛凯;张平 - 北京邮电大学
  • 2023-05-29 - 2023-10-24 - G10L15/183
  • 本申请提供一种上下文建模的语义通信编码传输和接收方法及相关设备;该方法包括:将图像向量输入解析变换网络,输出潜在表示向量,将潜在表示向量划分为锚点表示向量和非锚点表示向量,分别输入棋盘上下文熵模型;确定潜在表示向量的边信息,利用边信息确定棋盘上下文熵模型的锚点参数和非锚点参数;利用棋盘上下文熵模型估计锚点表示向量每个维度各自的锚点熵值,并利用棋盘上下文熵模型估计非锚点表示向量每个维度各自的非锚点熵值;利用每个锚点熵值和非锚点熵值确定潜在表示向量对应的符号数向量;将锚点表示向量和非锚点表示向量输入编码器并输出码字,使用预设的速率匹配函数根据符号数向量将码字映射为信道传输符号,发送至接收端。
  • 选择性会议摘要-202110568563.0
  • R·J·卡特莱特;孙学京 - 杜比实验室特许公司
  • 2016-02-03 - 2023-09-19 - G10L15/183
  • 本公开涉及选择性会议摘要。各种公开的实现涉及对涉及多个会议参与者的会议的记录的处理和/或回放。本文公开的一些实现涉及接收对应于涉及多个会议参与者的至少一个会议的记录的音频数据。在一些示例中,所接收的音频数据的仅一部分将被选择作为回放音频数据。该选择过程可包括主题选择过程,讲话突发过滤过程,和/或声学特征选择过程。一些示例包括接收目标回放持续时间的指示。选择音频数据的该部分可包括使得回放音频数据的持续时间处于目标回放持续时间的阈值时间差内。
  • 服务器侧热词-202310534112.4
  • A·H·格伦斯坦;P·阿列克西克;J·沙尔克维克;P·J·M·门吉巴 - 谷歌有限责任公司
  • 2017-10-30 - 2023-07-28 - G10L15/183
  • 提供了计算机实现的方法、计算系统以及非暂时性计算机可读介质,所述方法包括:接收编码一个或多个话语的音频信号,所述一个或多个话语包括第一话语;确定所述第一话语的至少一部分是否满足作为关键短语的至少一部分的第一阈值;响应于确定所述第一话语的至少一部分满足作为关键短语的至少一部分的第一阈值,向服务器系统发送所述音频信号,所述服务器系统确定所述第一话语是否满足作为所述关键短语的第二阈值,所述第二阈值比所述第一阈值限制性更高;以及从所述服务器系统接收指示所述服务器系统确定了所述第一话语是否满足所述第二阈值的数据。
  • 语音识别和更新方法、装置、设备和存储介质-202111313790.5
  • 王常刚;蒋正翔 - 北京百度网讯科技有限公司
  • 2021-11-08 - 2023-07-25 - G10L15/183
  • 本公开提供了一种语音识别和更新方法、装置、设备和存储介质,涉及计算机技术领域,具体涉及语音识别、深度学习等人工智能领域。语音识别方法包括:将语音信号输入声学模型进行处理,以输出所述语音信号的第一发音单元;将所述第一发音单元输入语言模型进行处理,以输出所述语音信号的第一识别文本;若所述第一识别文本为错误文本,将所述第一发音单元和所述语音信号的正确文本作为所述语言模型的训练样本,所述训练样本用以更新所述语言模型。本公开可以提高语音识别纠错的速度。
  • 一种语音识别方法-202310064142.3
  • 李林峰;牛坤;黄海荣 - 湖北星纪魅族科技有限公司
  • 2023-01-11 - 2023-07-07 - G10L15/183
  • 本申请提供一种语音识别方法,该方法包括:获取待识别音频的特征数据;将所述特征数据输入到声学模型中,得到所述特征数据对应的时序标签矩阵;通过第一语言模型对所述时序标签矩阵进行解码,得到多个解码路径及其对应的概率得分,将概率得分前N的解码路径确定为N个第一解码结果,其中,N为正整数;基于所述N个第一解码结果、上一轮语音交互领域和当前场景领域确定对应的目标意图领域;基于所述目标意图领域确定相对应的第二语言模型,通过所述第二语言模型,对所述概率得分前N的解码路径重新计算概率值,生成第二解码结果;基于所述第二解码结果确定所述待识别音频的语音识别结果。本申请在保证语音识别准确率的前提下也提高了识别效率。
  • 基于顺序采样分块机制的端到端流式语音识别方法及装置-202211735842.2
  • 王方圆;徐波 - 中国科学院自动化研究所
  • 2022-12-30 - 2023-06-23 - G10L15/183
  • 本发明提供一种基于顺序采样分块机制的端到端流式语音识别方法及装置,包括:针对初始语音识别模型中的每个特征提取网络,将前一个特征提取网络中SSC‑MHSA模块输出的多个语音样本的第二声学特征信息,输入特征提取网络中C‑MHSA模块,得到多个语音样本的第一声学特征信息;将多个语音样本的第一声学特征信息,输入特征提取网络的SSC‑MHSA模块,得到多个语音样本的第二声学特征信息;将初始语音识别模型中最后一个特征提取网络输出的多个语音样本的第二声学特征信息,输入初始语音识别模型中的解码器网络,得到多个语音样本的预测信息;基于多个语音样本的预测信息和标签信息,更新初始语音识别模型的模型参数,以得到性能较好的流式语音识别模型。
  • 语音意图识别方法、装置、电子设备及存储介质-202310151990.8
  • 孙金辉;马骏;王少军 - 平安科技(深圳)有限公司
  • 2023-02-10 - 2023-06-06 - G10L15/183
  • 本发明涉及人工智能技术领域,提供一种语音意图识别方法、装置、电子设备及存储介质,在接收到语音的意图识别指令后,通过在现有的预训练语言模型的MLM任务基础上,获取所述语音的转译文本及获取与所述转译文本对应的转写文本,易混淆词(如寿险和首先)的词向量在词向量空间中会被拉近,从而使词向量除了包含语义信息外,也包含了语音信息。包含转译错误的转译文本和正确的转写文本之间的差异被缩小,进而基于相似文本对对预训练语言模型进行微调得到的意图识别模型,对语音转译错误的鲁棒性更强,提升了整体意图识别的准确率。
  • 一种翻译机中语音识别自动纠正系统及方法-202310025166.8
  • 邓彪 - 中科凡语(武汉)科技有限公司
  • 2023-01-09 - 2023-05-12 - G10L15/183
  • 本发明公开了一种翻译机中语音识别自动纠正系统及方法,属于翻译机技术领域。一种翻译机中语音识别自动纠正系统及方法,包括语音识别模组、翻译模组和储存模组,翻译模组与语音识别模组连接,储存模组与翻译模组连接,语音识别模组包括麦克风模块、预处理模块、声学模型模块和语言模型模块,麦克风模块与预处理模块连接,预处理模块与声学模型模块连接,声学模型模块与语言模型模块连接,语音识别模组信号连接有转化模块,转化模块信号连接有播报模块,播报模块与翻译模组连接。该翻译机中语音识别自动纠正系统及方法,自动进行纠正,使用方便,且减少了语音识别的错误率,增加了语音识别的智能型,且可更好的针对使用者的使用习惯进行匹配。
  • 语音处理方法、装置、电子设备和存储介质-202211678115.7
  • 葛学志;华磊;刘权;陈志刚;刘聪;胡国平 - 科大讯飞股份有限公司
  • 2022-12-26 - 2023-04-25 - G10L15/183
  • 本发明提供一种语音处理方法、装置、电子设备和存储介质,其中方法包括:确定待处理语音的识别文本;基于所述待处理语音中各字符的停顿信息,以及所述识别文本中各字符之间的相关度,对所述识别文本中的各字符进行编码,得到所述识别文本中各字符的停顿上下文信息;基于所述各字符的停顿上下文信息,对所述待处理语音进行语音处理。本发明提供的语音处理方法、装置、电子设备和存储介质,得到的停顿上下文信息既能够反映待处理语音在发音上的声学停顿信息,同时能够反映对应的文本在内容语义上的语义信息,基于停顿上下文信息进行语音处理能够消除语义理解过程中的歧义,进一步提高语音处理的准确性。
  • 一种针对认知障碍的语音识别系统-201911227560.X
  • 严泉雷;苏荣锋;王岚;燕楠 - 中国科学院深圳先进技术研究院
  • 2019-12-04 - 2023-04-07 - G10L15/183
  • 本发明提供一种针对认知障碍的语音识别系统。该系统包括:声学特征提取器、声学模型、语言模型、发音词典和解码器,所述声学模型与所述声学特征提取器和解码器具有通信连接,所述语言模型和所述发音词典分别与所述声学模型具有通信连接,其中所述声学特征提取器用于提取相关的语音特征并发送至所述声学模型;所述声学模型用于基于所述语音特征通过训练提取区分音素和域的语音特征;所述解码器在基于所述区分音素和域的语音特征、声学上下文、所述发音词典和所述语言模型的知识源组成的搜索空间中,获得识别文本。本发明的系统能够提高认知障碍者的语音识别准确性。
  • 语音识别方法、装置、设备及存储介质-202211309926.X
  • 王诗达;毛振苏;徐勇攀;李乾;张琛;潘仰耀 - 上海浦东发展银行股份有限公司
  • 2022-10-25 - 2023-01-31 - G10L15/183
  • 本发明公开了一种语音识别方法、装置、设备及存储介质。该方法包括:将目标用户语音数据输入设定声学模型中,输出所述目标用户语音数据对应的声学特征序列;其中,所述目标用户语音数据携带有地域属性;所述声学特征序列包括多个声学特征;确定所述声学特征序列中各声学特征对应的至少一个目标词,获得多个目标词;将所述多个目标词输入领域语言模型中,输出目标语音识别结果;其中,所述目标语音识别结果由词序列表征。通过本发明的技术方案,可以提高语音识别的准确性。
  • 语音识别方法、装置、计算机设备、存储介质及产品-202210365164.9
  • 马东鹏 - 腾讯科技(深圳)有限公司
  • 2022-04-07 - 2022-09-27 - G10L15/183
  • 本申请提供了一种语音识别方法、装置、计算机设备、存储介质及产品,属于语音识别技术领域,可应用于语音识别、人工智能以及车载等场景。方法包括:将语音信号输入语音识别模型,得到语音信号的多个候选文本序列分别对应的第一候选文本参数;确定多个候选文本序列分别对应的第一语言参数和第二语言参数;基于多个候选文本序列分别对应的第二语言参数和第一候选文本参数,确定多个候选文本序列分别对应的声学参数;基于多个候选文本序列分别对应的声学参数和第一语言参数,确定多个候选文本序列分别对应的第二候选文本参数;基于多个候选文本序列和其分别对应的第二候选文本参数,确定语音信号对应的文本信息,提高了对语音信号进行识别的准确性。
  • 语音识别方法、装置、电子设备和时序融合语言模型-202210565882.0
  • 孙仁和 - 维沃移动通信有限公司
  • 2022-05-19 - 2022-09-09 - G10L15/183
  • 本申请公开了一种语音识别方法、装置、电子设备和时序融合语言模型,属于人工智能技术领域。该方法包括:在接收到用户输入的语音信息的情况下,对所述语音信息进行语音识别,得到识别结果,其中,所述语音信息包括语义信息和时序信息;在所述识别结果满足预设条件的情况下,通过时序融合语言模型对所述语音信息进行时序信息分析,得到时序得分;通过时序融合语言模型对所述语音信息进行语义信息分析,并根据所述时序得分和语义信息分析得到的语义特征信息,得到目标结果。
  • 一种养老护理人员的语音模拟训练系统-202210448458.8
  • 罗清平 - 长沙民政职业技术学院
  • 2022-04-26 - 2022-08-09 - G10L15/183
  • 本发明属于养老护理领域,公开了一种养老护理人员的语音模拟训练系统,其特征在于,该系统主要包括语音获取模块、语音处理模块、存储模块、语音选择模块、中央控制模块、音频播放模块、语音录入模块和语音比对模块;语音获取模块获取语音音频数据通过语音转化模块转化为语音文本数据;语音选择模块选择不同养老护理情景,将不同的控制指令指令发送到中央控制模块,基于控制指令选择对应的语音音频数据,并控制音频播放模块播放;语音比对模块将学员的语音文本数据与原语音文本数据比对,提示结果正确与否。本发明系统存储了多种养老护理情景下的语音数据,可通过设定的场景需求播放不同的语音数据,便于在护理员在进行训练时呈现更贴近真实情况的场景,有效的提升了护理员护理技能。
  • 基于情绪识别的文字标点自动添加方法、装置及存储介质-202210380330.2
  • 李蓉 - 平安国际智慧城市科技股份有限公司
  • 2022-04-12 - 2022-07-08 - G10L15/183
  • 本发明涉及人工智能领域,提出一种基于情绪识别的文字标点自动添加方法,首先实时获取用户的语音,将用户的语音输入预训练的语言分析模型以确定语音的语速、语调和语义,再根据预设的对比规则将语音的语速、语调和语义与预设的基础模型中的样本相类比获取类比结果;若类比结果表示基础模型中存在与所述语音的语速、语调和语义相匹配的样本,则提取与语音的语速、语调和语义相匹配的样本的标点添加准则,而后按照标点添加准则为所述语音添加文字标点,如此,根据音频中不同的情绪准确分析添加何种标点,与传统的语音文字的转换相比,能够提升用户使用体验,更准确的表达音频中的想要表达的意思,提高语音翻译文字的整体精准度。
  • 基于视觉面部轮廓运动的构音障碍语音识别方法及系统-202110512052.7
  • 钱兆鹏;于重重;苏小苏 - 北京工商大学
  • 2021-05-11 - 2022-05-24 - G10L15/183
  • 本发明公布了一种基于视觉面部轮廓运动的构音障碍语音识别方法及系统,系统包括多模态数据获取、多模态融合特征计算、多模态语音识别计算和语言模型计算模块;多模态数据获取算模块用于获取构音障碍者的面部轮廓运动视频数据和与视频同步的语音数据;多模态融合特征计算模块用于融合面部轮廓运动特征和语音声学特征;多模态语音识别计算模块用于获得由多模态特征到音素字符的映射关系;语言模型计算模块用于获得由音素字符到中文句子的映射关系。本发明通过融合语音声学特征参数与构音障碍者的发音动作得到融合后的多模态特征,利用融合后的多模态特征进行构音障碍语音识别,由此有效地提升构音障碍语音识别准确度。
  • 用于语音识别的设备和方法-201510872727.3
  • 崔喜烈;李镐式 - 三星电子株式会社
  • 2015-12-02 - 2022-03-01 - G10L15/183
  • 提供一种用于语音识别的设备和方法。一种语音识别方法包括:接收通过语音识别产生的句子;基于每个词与所述句子中的其它词的关系,计算所述句子中的每个词的适宜度;基于每个词的适宜度检测所述句子中的词之中的将被纠正的目标词;用与目标词相应的候选词中的任何一个来替换目标词。
  • 基于端到端模型的混合语音识别系统及方法-202111041405.6
  • 司玉景;李全忠;何国涛;蒲瑶 - 普强时代(珠海横琴)信息技术有限公司
  • 2021-09-07 - 2021-12-07 - G10L15/183
  • 本发明涉及一种基于端到端模型的混合语音识别系统及方法,包括特征提取模块、语言模型、基于端到端模型的声学模型、解码器、词图重估模块以及输出模块。本发明采用声学语言端到端建模技术,对海量语音数据进行建模,并将端到端模型的编码网络作为声学模型,嵌入到混合语音识别系统中,不仅进一步提高了语音识别准确率,而且解决了纯端到端语音识别系统在项目中难以做定制化的问题。另外,本发明在端到端模型的编码网络的基础上,继续做鉴别性声学模型训练(SMBR、MPE等),可以进一步提高识别准确率。
  • 语音数据处理方法、装置、设备及计算机可读存储介质-202010288924.1
  • 闫慧丽;郑宇宇;顾松庠 - 京东数字科技控股有限公司
  • 2020-04-14 - 2021-10-22 - G10L15/183
  • 本发明提供一种语音数据处理方法、装置、设备及计算机可读存储介质,方法包括:获取语音数据;将语音数据转换为拼音数据;在预设的拼音知识库中获取与拼音数据相似度最高的标准问题;若拼音数据与标准问题之间的相似度低于预设的阈值,将拼音数据输入至预设的预测模型,获得目标标准问题;将与目标标准问题对应的目标答案转换为目标语音数据,播放目标语音数据。通过将语音数据转换为拼音数据,在拼音数据与标准问题之间的相似度低于预设的阈值时,通过预设的预测模型确定拼音数据对应的目标标准问题,从而能够避免直接将语音数据转换为文字数据造成的信息损失,提高播报的目标语音数据与用户的语音数据对应的问题之间的匹配度。
  • 基于场境的语音识别语法选择方法和系统-202110625294.7
  • 大卫·P·辛格尔顿;德巴基特·高什 - 谷歌有限责任公司
  • 2009-03-06 - 2021-10-15 - G10L15/183
  • 本公开涉及基于场境的语音识别语法选择方法和系统。除其它外,本说明书的主题可以实现在包括以下的方法中:接收从与第一计算设备相关联的非语言用户行为取得的地理信息。非语言用户行为暗示用户对地理位置感兴趣。该方法还包括使用取得的地理信息来识别与该地理位置相关联的语法,以及输出语法指示符以供在选择所识别的语法对来自用户的话音输入进行语音识别处理中使用。
  • 一种AI智能绘本点读机-202022947572.4
  • 林锐 - 中山市秦奇电子科技有限公司
  • 2020-12-11 - 2021-07-30 - G10L15/183
  • 本实用新型公开一种AI智能绘本点读机,其特征在于,包括壳体、摄像头、麦克风、按键、扬声器、显示屏、电源模块和控制电路板,所述控制电路板上设有处理芯片、晶体振荡器、快闪存储器和模拟数字转换器,所述处理芯片设有通讯模块。本实用新型的AI智能绘本点读机设有摄像头和麦克风,能够获取用户的语音和图像信息,与孩童进行语音对话,播放绘本、音乐,以及进行网络搜索的智能伙伴,消除孩童的孤独感,并利用网络帮助孩童学习、查找学习资源,将纸质绘本、图册等放在AI智能绘本点读机前方,由摄像头获取图像数据,寻找云服务器或网络中对应的绘本语音资源,再通过扬声喇叭进行播读,提升孩童兴趣,也可协助孩童纠正读音,指导儿童独立阅读绘本,有利于培养儿童独立学习的兴趣和能力。
  • 一种用于英语语音的信息采集方法-202110223067.1
  • 张敏;李琦;丁桂芝;牛明敏;王晓靖;李静 - 郑州铁路职业技术学院
  • 2021-03-01 - 2021-06-15 - G10L15/183
  • 本发明公开了一种用于英语语音的信息采集方法,该信息采集方法包括以下步骤:S1、采集音频信号并放大;S2、将放大后的音频信号进行模拟滤波;S3、将模拟滤波后的信号转换为数字信号并提取数字音频信号的音频特征参数:起音时间、频谱质心、频谱通量、基音频率、尖锐度等;S4、将上述音频特征参数与标准音源数据库中的音源模型匹配,然后将数字音频信号与音源模型中的音节、音位匹配得出匹配度,根据匹配度差距大小进行音素纠正;S5、将纠正后的音素组合进数字音频信号;S6、对合成后的数字音频信号进行模糊滤波,并输出音频信号。
  • 语音识别方法、设备、计算机可读存储介质及程序产品-202110127147.7
  • 连荣忠;陈潮涛;彭金华;姜迪;徐倩;杨强 - 深圳前海微众银行股份有限公司
  • 2021-01-29 - 2021-06-01 - G10L15/183
  • 本申请提供了一种语音识别方法、设备、计算机可读存储介质及程序产品,所述方法包括:获取待识别语音信息和上文识别结果,所述上文识别结果为所述待识别语音信息的上文语音信息的语音识别结果;对所述待识别语音信息进行识别,得到多个候选识别结果;分别将所述上文识别结果与各个候选识别结果输入至训练好的匹配模型,得到各个匹配结果,所述各个匹配结果包括所述上文识别结果与所述各个候选识别结果的相关度;基于所述各个匹配结果,从所述多个候选识别结果中确定目标识别结果。如此,通过结合上文内容对待识别语音进行关联识别,能够使识别结果符合实际对话场景,实现基于上文内容的语音识别,能够提高语音识别结果的准确率。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top