[发明专利]应用于电视场景的多模态交互方法在审
申请号: | 201910630133.X | 申请日: | 2019-07-12 |
公开(公告)号: | CN110335603A | 公开(公告)日: | 2019-10-15 |
发明(设计)人: | 周建波;高岚;李洋全 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/18;G10L15/25;G10L15/04;G10L15/30;G10L13/00 |
代理公司: | 成都虹桥专利事务所(普通合伙) 51124 | 代理人: | 吴中伟 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及语音交互和图像处理技术领域,其公开了一种应用于电视场景的多模态交互方法,解决现有远场语音交互方案中存在的每次交互需要先说唤醒词,并且系统需要对播放音量进行调节,影响交互的流畅度和体验感的问题。本发明在获取到语音数据时进行缓存,同时通过对图像采集设备采集的用户图像进行识别,通过识别来确定用户是否有语音交互意图,若判定用户当前有语音交互意图才进行语音数据有效性判断,将有效的语音数据上传给云端服务器进行语音识别和语义理解处理。本发明适用于电视、音箱等设备的远场语音交互。 | ||
搜索关键词: | 语音交互 语音数据 多模态交互 电视场景 远场 缓存 图像采集设备 图像处理技术 有效性判断 云端服务器 播放音量 用户图像 语义理解 语音识别 流畅度 音箱 上传 判定 应用 唤醒 采集 电视 | ||
【主权项】:
1.应用于电视场景的多模态交互方法,其特征在于,应用于包括语音采集设备和图像采集设备的电视系统中,所述电视系统上运行有语音交互应用服务和说话检测应用服务,该方法包括以下步骤:步骤1、语音交互应用服务在获取语音数据时,对语音数据进行缓存,同时通过调用说话检测应用服务对采集的图像进行识别;步骤2、说话检测应用服务根据对采集的图像的识别来检测当前用户是否有语音交互意图,并将检测结果发送给语音交互应用服务;步骤3、若语音交互应用服务接收到当前用户有语音交互意图的检测结果,则通过VAD算法对缓存的语音数据中是否含有有效语音数据进行判断,若含有有效语音数据,则将缓存的语音数据上传给云端服务器;步骤4、云端服务器对上传的语音数据进行语音识别以及自然语言处理,将处理结果发送给电视系统的语音交互应用服务;步骤5、语音交互应用服务根据云端服务器反馈的处理结果判断是否为与电视场景匹配的控制指令,若是,则执行控制指令并使用TTS技术进行语音回复,从而完成一轮语音交互。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910630133.X/,转载请声明来源钻瓜专利网。
- 上一篇:一种具有语音识别功能的河长制信息化系统
- 下一篇:一种语音呼叫台灯系统