[发明专利]语音播报方法及装置有效

专利信息
申请号: 201610487543.X 申请日: 2016-06-28
公开(公告)号: CN106128478B 公开(公告)日: 2019-11-08
发明(设计)人: 傅强;贾伟光;侯恩星 申请(专利权)人: 北京小米移动软件有限公司
主分类号: G10L25/54 分类号: G10L25/54
代理公司: 北京三高永信知识产权代理有限责任公司 11138 代理人: 鞠永善
地址: 100085 北京市海淀区清河*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 本公开关于一种语音播报方法及装置,属于计算机技术领域。所述方法包括:采集用户的查询语音,并将所述查询语音发送给服务器;接收所述服务器针对所述查询语音返回的应答语音;确定与所述查询语音相匹配的播报声音;以所述播报声音播报所述应答语音。本公开解决了以相同的播报声音播报所有的应答语音,造成语音播报的效果单一的问题,扩展了语音播报的效果。
搜索关键词: 语音 播报 方法 装置
【主权项】:
1.一种语音播报方法,其特征在于,所述方法包括:采集用户的查询语音,并将所述查询语音发送给服务器;接收所述服务器针对所述查询语音返回的应答语音;确定与所述查询语音相匹配的播报声音;以所述播报声音播报所述应答语音;其中,所述确定与所述查询语音相匹配的播报声音,包括:接收所述服务器发送的播报声音指示,将所述播报声音指示所指示的播报声音确定为与所述查询语音相匹配的播报声音,所述播报声音指示是所述服务器对所述查询语音的声音特征进行识别,查找与所述声音特征相匹配的播报声音,获取所述播报声音的标识,生成用于指示所述播报声音的指示信息,所述播报声音指示中携带有所述播报声音的标识;获取所述播报声音指示中的所述播报声音的标识,查找所述播报声音的标识所指示的播报声音;其中,所述对所述查询语音的声音特征进行识别,查找与所述声音特征相匹配的播报声音,包括:对所述查询语音的声音进行识别,将所述查询语音与第三映射中的声音模板进行匹配,以获取发出所述查询语音的用户的标识,在第一映射中查找与所述用户的标识对应的播报声音,所述第一映射用于记录用户的标识与播报声音之间的对应关系,所述第三映射用于记录用户的声音模板和用户的标识之间的对应关系。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京小米移动软件有限公司,未经北京小米移动软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610487543.X/,转载请声明来源钻瓜专利网。

同类专利
  • 语音播报方法及装置-201610487543.X
  • 傅强;贾伟光;侯恩星 - 北京小米移动软件有限公司
  • 2016-06-28 - 2019-11-08 - G10L25/54
  • 本公开关于一种语音播报方法及装置,属于计算机技术领域。所述方法包括:采集用户的查询语音,并将所述查询语音发送给服务器;接收所述服务器针对所述查询语音返回的应答语音;确定与所述查询语音相匹配的播报声音;以所述播报声音播报所述应答语音。本公开解决了以相同的播报声音播报所有的应答语音,造成语音播报的效果单一的问题,扩展了语音播报的效果。
  • 多人发言中发言人识别方法以及装置-201810100768.4
  • 卢启伟;刘善果;刘佳 - 深圳市鹰硕技术有限公司
  • 2018-02-01 - 2019-06-28 - G10L25/54
  • 本公开是关于一种多人发言中发言人识别方法、装置、电子设备以及存储介质,涉及计算机技术领域。该方法包括:获取多人发言中的发言内容,抽取并处理得到所述发言内容中预设长度的语音片段中的谐音波段,计算分析所述谐音波段中谐音数量及其相对强度,并以此确定同一发言人,通过对不同发言人对应的发言内容进行分析,识别出各发言人的身份信息,最后生成不同发言人的发言内容与发言人身份信息的对应关系。本公开可以根据各发言人发言内容有效的区分出发言人身份信息。
  • 一种音频处理方法及装置-201610201636.1
  • 金星明;李科;吴永坚;黄飞跃 - 腾讯科技(深圳)有限公司
  • 2016-04-01 - 2019-06-07 - G10L25/54
  • 本发明实施例提供一种音频处理方法及装置,其中的方法可包括:获取目标音频的N(N≥1的自然数)帧音频数据;提取所述N帧音频数据中每帧音频数据的音频特征参数;根据所述音频特征参数,将所述N帧音频数据映射至K(K≥1的自然数)个聚类,形成K维特征向量;基于所述K维特征向量,计算所述目标音频与M(M≥2的自然数)个预设类别音频之间的相似度,并将相似度满足预设条件的类别确定为所述目标音频的类别。采用本发明实施例可自动准确地确定目标音频的类别,分类速度快,节省人力成本。
  • 一种音频匹配方法及装置-201910089084.3
  • 马哲;高超 - 北京雷石天地电子技术有限公司
  • 2019-01-30 - 2019-05-28 - G10L25/54
  • 本发明涉及视音频处理技术领域,特别是涉及一种音频匹配方法及装置,其中方法权项包括:获取当前视音频数据中的音频指纹信息;当无法查找到与所述音频指纹信息相匹配的第一音频创作者信息时,获取所述当前视音频数据中的视频特征信息;在所述音频作品信息数据库中,查找与所述视频特征信息相匹配的第二音频创作者信息;将所述第二音频创作者信息与所述音频指纹信息建立匹配关系,并将该匹配关系存储至所述音频作品信息数据库中。本发明通过将原视频进行头像识别,进而与歌星建立关联性,解决了现有技术中无法根据视音频信息找到相应歌星信息的问题。
  • 一种联系人添加方法、装置、可读存储介质及终端设备-201811530429.6
  • 段然 - 平安普惠企业管理有限公司
  • 2018-12-14 - 2019-05-21 - G10L25/54
  • 本发明属于计算机技术领域,尤其涉及一种联系人添加方法、装置、计算机可读存储介质及终端设备。所述方法在接收到语音采集指令后,采集用户输入的语音信号;对采集的所述语音信号进行特征分析,得到其特征向量;提取所述用户的终端设备中的联系人列表,并在预设的数据库中分别查找所述联系人列表中的各个联系人的标准特征向量;分别计算所述语音信号的特征向量与各个标准特征向量之间的匹配度,并根据所述匹配度从所述联系人列表中选取预设数目的候选联系人;根据所述用户的通话记录分别计算所述用户与各个候选联系人之间的关联度,并将关联度最高的候选联系人添加入指定的填写区域中,用户仅通过语音输入的方式即可完成联系人的添加过程。
  • 基于语音分析的管理音乐的方法、装置和计算机设备-201910100398.9
  • 李影 - 平安科技(深圳)有限公司
  • 2019-01-31 - 2019-05-21 - G10L25/54
  • 本申请揭示了一种基于语音分析的管理音乐的方法、装置和计算机设备,其中方法包括:智能耳机接收到用户发出的采集音频片段的指令后,再判定用户佩戴所述智能耳机,则控制麦克风采集声音,得到音频信息;提取出所述音频信息中的频谱以及声纹信息;将所述频谱与预设的服务器中带有所述性别类型标签的音乐文件进行相似度计算;将相似度计算结果最相近的音乐文件作为所述目标音乐文件,并播放所述目标音乐文件;然后将所述目标音乐文件下载到所述智能耳机的存储器中。本申请自动检测智能耳机是否是与人体接触来判定发出的指令是否是误操作,从而可以减小不必要的音乐识别。
  • 一种基于共振峰频率的数字语音感知哈希方法-201610049423.1
  • 王宏霞;任刘姣 - 西南交通大学
  • 2016-01-25 - 2019-03-29 - G10L25/54
  • 本发明公开了一种基于共振峰频率的数字语音感知哈希方法,应用于大数据背景下的语音检索,分别提取能反映说话人音色特征的共振峰频率作为语音段的粗略特征和鲁棒性较强的时域能量差作为语音段的细节特征。匹配过程首先对语音的粗略特征进行匹配,筛选出与目标语音具有相似音色的语音片段,然后对筛选出的具有相似音色的语音进行细节特征匹配,最后获得精确匹配结果。应用于海量语音信号处理时可以省去大量不必要的匹配计算量,匹配效率将明显提高。
  • 一种外部声源安全提醒方法、系统、设备以及介质-201811488030.6
  • 陈佳雷 - 江苏满运软件科技有限公司
  • 2018-12-06 - 2019-03-19 - G10L25/54
  • 本发明公开了一种外部声源安全提醒方法、系统、设备以及介质,包括:根据设置于所述移动设备中的一位置传感器获得用户的位置信息,并根据所述位置信息匹配得到一场景类型;采集外部的音频信号;提取步骤,根据所述音频信号提取音频特征向量;根据所述场景类型匹配得到一预存有预警特征向量的特征数据库;根据所述音频特征向量于所述特征数据库中匹配;若存在与所述音频特征向量相匹配的所述预警特征向量,则通过耳机向用户发送一预警信号,监测采集外部的环境中的音频信号,对采集得到的音频信号进行特征提取得到音频特征向量,特征数据库中储存由特定声音的特征向量,根据该音频特征向量在特征数据库中匹配,则通过耳机向用户放出警告。
  • 一种语音搜题方法及系统-201811410443.2
  • 徐杨 - 广东小天才科技有限公司
  • 2018-11-23 - 2019-03-01 - G10L25/54
  • 本发明属于数据处理技术领域,公开了一种语音搜题方法及系统,其方法包括:学习设备根据用户发出的唤醒信号启动语音搜题功能;所述学习设备判断自身是否处于移动状态;当所述学习设备判定自身处于移动状态时,所述学习设备将当前的拾音模式切换为定向拾音模式;所述学习设备通过所述定向拾音模式采集所述用户发出的语音信息;所述学习设备根据所述语音信息执行相应的搜题操作。本发明当判定学习设备自身处于移动状态时,将当前的拾音模式切换为定向拾音模式,通过定向拾音模式采集用户发出的语音信息,可减少当用户移动到嘈杂环境而造成的语音识别准确率低的问题,提高语音搜题效率,提高用户的使用体验。
  • 一种基于语音的搜索方法、移动终端及存储介质-201810270458.7
  • 王俊明 - 努比亚技术有限公司
  • 2018-03-29 - 2018-09-04 - G10L25/54
  • 本发明公开了一种基于语音的搜索方法,所述方法包括:接收用户输入的语音信息;识别所述语音信息的语义信息及声音特征参数;从所述语义信息及所述声音特征参数中提取关键信息;从信息库中搜索与所述关键信息相匹配的搜索结果;显示所述搜索结果。此外,本发明还公开一种移动终端。本发明提高的基于语音的搜索方法及移动终端,从语音信息的语义信息及声音特征参数提取关键信息,根据多个维度确定的关键信息进行搜索的效率比较快,得到的搜索结果比较准确,可以有效提高搜索结果准确度及搜索效率。
  • 一种基于匹配追踪的音乐速度谱图生成方法-201710675484.3
  • 桂文明 - 金陵科技学院
  • 2017-08-09 - 2018-08-21 - G10L25/54
  • 本发明提供一种基于匹配追踪的音乐速度谱图生成方法,涉及基于内容的音乐信息检索领域,该方法包括以下步骤:输入音乐信号,生成音符起始点检测函数o(n)并对其分帧;取常用音乐速度区间转换成频率集合;对频率集合中的每一频率,创建一个对应的母原子;对母原子进行移位操作,每移动一次生成一个新原子;将所有母原子和新原子组装成冗余字典;运用该字典,对o(n)的每一帧进行匹配追踪,得到各音乐速度的分解系数,最后生成该音乐的音乐速度谱图。本发明生成的音乐速度谱图具有分辨率高、稀疏性强的特点,并可根据自身要求灵活设置音乐速度的分辨率、母原子的移位粒度和匹配追踪循环次数,从而生成不同分辨率和不同稀疏性的音乐速度谱图。
  • 一种基于卷积神经网络和随机森林的音频分类方法-201810037337.8
  • 彭德中;付炜 - 四川大学
  • 2018-01-16 - 2018-06-05 - G10L25/54
  • 本发明公开了一种基于卷积神经网络和随机森林的音频分类方法,该方法包括:S1:对原始音频数据集进行频谱分析,包括分段、分帧、加窗、傅里叶变换,得到原始音频文件对应的频谱图;S2:以得到的频谱图作为输入,训练一个卷积神经网络特征提取器;S3:去掉卷积神经网络的softmax层,提取频谱图的高层特征;S4:利用提取的频谱图高层特征训练随机森林分类器;S5:基于卷积神经网络提取的高层特征,利用训练好的随机森林进行音频分类。本发明基于卷积神经网络做特征提取,避免了手动构造提取特征的繁琐过程,同时针对采用softmax作为卷积神经网络分类器导致泛化能力不足的问题,采用随机森林替换掉卷积神经网络的softmax层,作为最终的分类器。在测试过程中取得了较高的准确率和召回率。
  • 音频的特征提取方法、音频的分类方法和相关装置-201310255746.2
  • 谢志明;潘晖;潘石柱;张兴明;傅利泉;朱江明;吴军;吴坚 - 浙江大华技术股份有限公司
  • 2013-06-24 - 2018-01-12 - G10L25/54
  • 本发明公开了一种音频的特征提取方法、音频的分类方法和相关装置,用以解决现有技术中无法对不同时长的音频提取出相同长度的特征的问题。该方法包括获得音频,并针对获得的每个音频执行下述操作按照预先设置的分帧规则,对该音频进行划分,得到多个音频帧;按照预先设置的特征提取规则,分别对所述多个音频帧进行特征提取,得到各音频帧的特征;根据得到的各音频帧的特征,以及用于区别音频帧类别的各聚类中心,分别确定每个音频帧对应的聚类中心;分别确定各聚类中心所对应的音频帧的个数,并根据确定出的所述个数确定所述音频的特征。
  • 车载语音交互装置及系统-201710560327.8
  • 童建超 - 深圳市古古美美实业有限公司
  • 2017-07-11 - 2017-11-24 - G10L25/54
  • 本申请提供了车载语音交互装置及系统,涉及语音交互技术领域,其中,该车载语音交互装置包括依次相连的语音接收器、手机、语音数据库和语音输出器,工作时,语音接收器接收用户输入的声音,将声音转化为数字语音信号,将数字语音信号发送给语音数据库,并通过手机实现语音接收器与语音数据库的网络连接,语音数据库查找与数字语音信号相匹配的语音输出信号,并将语音输出信号发送给语音输出器,语音输出器与汽车的音频输入接口连接,由车载音响实现语音输出信号的播放,该装置能够在车内安装方便,操作便捷,提升了用户体验。
  • 语音应用中用于自动确认和消歧模块的方法和系统-201410331849.7
  • R·P·阿科尔卡尔;J·克莱蒂恩斯特;V·S·莫尔;D·纳哈莫;C·F·维夏 - 国际商业机器公司
  • 2014-07-14 - 2017-09-29 - G10L25/54
  • 本发明提供了语音应用中用于自动确认和消歧模块的方法和系统。所述方法包括经由语音浏览器执行对与用户的对话流建模的控制流逻辑。控制流逻辑产生消歧要求。启动消歧模块,并将一组至少两个候选和划分标准从控制流逻辑发送给所述模块。基于划分标准分析候选的属性以确定每个属性的划分分数,其指示辨别候选的能力。基于划分分数对属性进行排序。基于排序在首位的属性询问用户,并使用询问的结果以减少所述一组候选。重复分析、排序和询问的步骤,直到所述一组候选被减少为单个候选为止。将单个候选返回给控制流逻辑,用于继续执行。
  • 一种基于字典分类的音频匹配追踪装置及其追踪方法-201610967738.4
  • 胡瑞敏;姜林;胡霞;王晓晨;江游 - 武汉大学深圳研究院
  • 2016-11-01 - 2017-05-10 - G10L25/54
  • 本发明公开了一种基于字典分类的音频匹配追踪装置,包括信号分解单元和信号重构单元,信号分解单元包括字典建立模块、信号分类模块、权值比较模块、残差计算模块和阈值控制模块,信号重构单元包括重构系数提取模块和信号合成模块。本发明还公布了该追踪装置的追踪方法。本发明通过对信号进行分类,对不同类型的信号采取不同的稀疏字典进行MP算法,减少了无关遍历次数,降低了计算复杂度;在分类预处理过程中,通过计算原始信号的能量分布区间判断其适应的稀疏字典;本方法缩小了所需字典的维度,提高了编码速率,使用效果好。
  • 音频指纹检索方法及装置-201110340094.3
  • 易立夫;张远涛 - 深圳市世纪光速信息技术有限公司
  • 2011-11-01 - 2017-02-01 - G10L25/54
  • 本发明公开了一种音频指纹检索方法及装置,所述方法包括对音频片段的音频信号进行分帧处理;通过起始点检测算法(ODF)确定所述分帧处理所得到各分帧中的关键帧;得到所述关键帧的音频指纹,并根据所得到的音频指纹进行检索,得到对应所述音频片段的音频文件信息。相应的,本发明还公开了一种音频指纹存储方法及装置,能够大大减少音频检索所消耗的内存,并且音频检索耗时也会大大减少,在保证音频指纹检索准确率的前提下,提高了检索效率。
  • 语音答复方法及装置-201610730491.4
  • 滕义伟 - 北京云知声信息技术有限公司
  • 2016-08-25 - 2017-01-18 - G10L25/54
  • 本发明是关于一种语音答复方法及装置,其中,方法包括当客服人员的第一终端与用户的第二终端建立连接关系后,获取客服人员的编号,以及用户通过第二终端输入的目标语音信息;对目标语音信息进行识别,以得到目标语音信息对应的目标文字内容信息;在预设的文本问题数据库中查找与目标文字内容信息匹配的目标问题;在查找到目标问题时,从客服人员的编号所对应的语音样本库中查找目标问题对应的目标语音答案;在查找到目标问题对应的目标语音答案时,输出目标语音答案至第二终端。通过该技术方案,在客服人员的终端和用户的终端建立连接后,客服人员的终端可以自动查找用户提出的问题的答案,并通过客服人员的语音输出该答案。
  • 中国典型听觉文化符号特征选择方法-201510859814.5
  • 吴梅梅;刘静;张宜春;陈彦杰 - 中国传媒大学
  • 2015-12-02 - 2016-07-13 - G10L25/54
  • 中国典型听觉文化符号特征选择方法,它涉及特征选择方法。它解决了听觉符号资源的收集、检索、欣赏、参考和利用的问题。本发明的方法:采用音乐描述;数据预处理;特征提取;特征选择四个步骤来实现的。本发明在研究中国典型听觉文化符号特征选择方法,将听觉符号数字化,建立听觉符号资源数据库,以实现对听觉符号资源的收集、检索、欣赏、参考和利用等,这项工作对于宣传和保护中国典型听觉符号具有重要的历史意义和现实意义,在中国整体传统音乐数字化的发展进程中起着重要的推动作用的优点。
  • 一种信息查找方法及装置-201510714121.7
  • 王坤辉 - 天脉聚源(北京)教育科技有限公司
  • 2015-10-28 - 2016-02-17 - G10L25/54
  • 本发明公开了一种信息查找方法及装置。所述方法包括:获取预存储的语音信息;识别所述语音信息中的预设提示信息;根据所述预设提示信息,在与所述语音信息对应的文件信息中查找与所述预设提示信息对应的匹配信息。通过本发明的技术方案,能够根据保存的语音信息和语音信息中的重点提示信息即预设提示信息,快速查找到与该语音信息对应的文件信息中的与重点提示信息相对应的匹配信息,从而使得用户能够快速地对文件信息中的重点内容即匹配信息进行复习和回顾,极大地方便了用户。
  • 计算机系统及音频比对方法-201310589528.2
  • 王崇喆;黄耀民;廖珮妤 - 财团法人资讯工业策进会
  • 2013-11-20 - 2015-05-20 - G10L25/54
  • 本发明揭露一种计算机系统及音频比对方法。音频比对方法包含:估算音频样本的音频片段的辨识难易度;根据辨识难易度,决定地标特征撷取的次数,并对音频片段进行相对应次数的地标特征撷取,以产生多个地标特征;将地标特征编码为散列键;整合散列键,并将整合后的散列键与散列表中的散列键进行查表比对;分析查表比对的结果;以及决定音频比对结果。
  • 声音商标检索方法-201410752310.9
  • 孔军民 - 北京中细软移动互联科技有限公司
  • 2014-12-11 - 2015-03-25 - G10L25/54
  • 本发明提供的声音商标检索方法包括:将样本商标按照时长划分为两个以上群组;根据待测商标的时长确定其所属群组以在该群组中进行相似度检索:将待测和样本商标分割为相等长度的多个音频序列;确定待测与样本商标中需比对的两路音频序列中的音频帧总数P;计算需比对的两路音频序列中每一对应的音频帧的能量比值J以判断对应的两个音频帧为正常或异常音频帧,计算需比对的两路音频序列中正常音频帧的平均能量比值K;确定能量比值在平均能量比值K的区间内的音频帧个数Q;针对每一路音频序列计算音频帧个数Q与音频帧总数P的数量比值,根据需比对的两路音频序列的数量比值之间的比值S判定两路音频序列的相似性以判定待测与样本商标的相似性。
  • 一种演唱者音色相似的歌星推荐方法与装置-201410448290.6
  • 王子亮;刘旺;邹应双;蔡智力 - 福建星网视易信息系统有限公司
  • 2014-09-04 - 2014-12-03 - G10L25/54
  • 一种演唱者音色相似的歌星推荐方法,包括:获得纯人声音频,再对纯人声音频进行预处理,然后分别提取每个纯人声音频的声音特征系数集,用声音模型算法训练出对应歌星模型;对于给定的用户的声音样本,进行预处理,并提取特征系数集;然后将用户声音样本的特征系数集与所有歌星模型进行匹配,找出音色最相似的歌星。本发明还提供相应的装置。本发明可应用于KTV场景中,为用户推荐与其音色相似的歌星,可以增加演唱的乐趣,并提高用户模仿歌星音色的水平。
  • 一种用于数据库信息查询的语音查询系统-201310578994.0
  • 储冬红 - 长江大学;严九洲
  • 2013-11-18 - 2014-04-16 - G10L25/54
  • 一种用于数据库信息查询的语音查询系统,该系统包括:语音输入模块、数据化模块、特征筛选模块、对比分析模块、数据分析立体化模块、对比相关度检验模块、结果输出模块、数据检索模块;其中,语音输入模块,用来保存输入的语音信息;数据化模块实现将将输入的语音信转换为数字化向量;特征筛选模块,用于将输入语音信号的数字化向量,对信号进行分割处理,数据分析立体化模块,将分割后的数字化向量进行立体化分析处理;对比相关度检验模块,用于计算各个对应分割时间域之间的相关度大小;结果输出模块,用于分析输入语音信号和对比语音信号的相似度大小,数据检索模块,用于完成最终的数据库检索过程。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top