[发明专利]智能识别语音的方法及装置有效
申请号: | 201510982051.3 | 申请日: | 2015-12-23 |
公开(公告)号: | CN106920546B | 公开(公告)日: | 2020-03-20 |
发明(设计)人: | 刘卫星;季虹;常洋 | 申请(专利权)人: | 小米科技有限责任公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/22 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 林祥 |
地址: | 100085 北京市海淀区清*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 智能 识别 语音 方法 装置 | ||
本公开提供一种智能识别语音的方法及装置,其中,所述方法包括:采集用户个性化的语音样本,每一个语音样本包括:视频播放时间与有效语音特征值集合的对应关系;建立所述语音样本与所述视频播放时间内播放视频的视频信息之间的对应关系,构建目标语言特征数据库;根据所述目标语言特征数据库中的有效语音特征值与所述视频信息的相关性,确定语音识别模型。本公开提供的智能识别语音的方法可以实现智能设备自主学习用户语言,建立符合用户个性化需求的语音识别库,从而为用户提供智能化的语应控制服务,增强设备的智能化程度,提升用户体验。
技术领域
本公开涉及人工智能的语音识别技术领域,尤其涉及一种智能识别语音的方法及装置。
背景技术
语音识别技术是将人类语音中的词汇内容转换为机器可读的输入,即与机器进行语言交流,让机器明白人类在说什么。语音识别的应用非常广泛,以语音控制系统应用于电视节目的语音搜索为例,电视遥控器或安装在用户终端上的遥控器APP接收用户发出的搜索电视节目的语音信息,对用户的语音信号进行特征值提取,将提取的语音特征值与预设的语音识别数据库进行模式匹配,获得识别结果即文字信息,根据识别结果搜索用户想看的电视节目,将相关节目列表推送到电视屏幕。
目前人工智能中的语音识别大部分应用都依赖于人工预先训练好的语音识别数据库的内容。当上述预先训练好的语音识别数据库中不包括用户的语音特征信息时,比如预设的语音识别库是人工使用普通话录入的语音信息而建立的,若用户使用外语或某地的方言语音搜索电视节目时,电视便无法准确为用户搜索想看的电视节目,使得电视的语音搜索功能受限,导致电视还不能真正满足用户的个性化需求,智能化程度低。
发明内容
有鉴于此,本公开提供一种智能识别语音的方法及装置,实现智能设备自主学习用户语言,从而为用户提供智能化的语应控制服务。
根据本公开实施例的第一方面,提供了一种智能识别语音的方法,所述方法包括:
采集用户个性化的语音样本,每一个语音样本包括:视频播放时间与有效语音特征值集合的对应关系;
建立所述语音样本与所述视频播放时间内播放视频的视频信息之间的对应关系,构建目标语言特征数据库;
根据所述目标语言特征数据库中的有效语音特征值与所述视频信息的相关性,确定语音识别模型。
可选地,所述采集用户个性化的语音样本,包括:
采集用户发出的原始语音信号;
根据视频播放时间,从所述原始语音信号中截取预置时间对应的第一语音信号;
提取所述第一语音信号的语音特征值,获得第一有效语音特征值集合;
将所述第一有效语音特征值集合与对应的视频播放时间,确定为所述语音样本。
可选地,所述提取所述第一语音信号的语音特征值,获得第一有效语音特征值集合,包括:
对所述第一语音信号进行特征值提取,获得第一语音特征值集合;
将所述第一语音特征值集合中出现频率超过第一预设频率阈值的语音特征值确定为有效语音特征值,获得所述第一有效语音特征值集合。
可选地,所述采集用户个性化的语音样本,包括:
采集用户发出的原始语音信号;
提取所述原始语音信号的语音特征值,获得第二有效语音特征值集合;
根据视频播放时间,从所述第二有效语音特征值集合中获取预置时间对应的第一有效语音特征值集合;
将所述第一有效语音特征值集合与对应的视频播放时间确定为所述语音样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于小米科技有限责任公司,未经小米科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510982051.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:浪涌电流检测装置
- 下一篇:一种用于柔性直流输电逆变站的过流故障监测保护装置