[发明专利]一种基于智能语音芯片的中文自定义唤醒与物联交互方法在审
申请号: | 202110302440.2 | 申请日: | 2021-03-22 |
公开(公告)号: | CN113178193A | 公开(公告)日: | 2021-07-27 |
发明(设计)人: | 高楠;陈磊;陈国鑫;程建勋;张意能;张思翼 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/02;G10L15/16;G10L15/08;G10L15/18;G10L15/26;G10L15/06 |
代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 王兵 |
地址: | 310014 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 智能 语音 芯片 中文 自定义 唤醒 交互 方法 | ||
一种基于智能语音芯片的中文自定义唤醒与物联交互方法,包括:步骤1:唤醒语音,具体包括:步骤1‑1:提取语音特征;从麦克风获取语音信号,把语音信号进行特征提取得到二维的特征序列;步骤1‑2:检测唤醒词;把步骤1‑1中得到的语音特征输入CNN‑CTC声学模型神经;步骤2:识别离线语音;包括:步骤2‑1:运用CNN‑CTC声学模型,将输入的语音转换为拼音;步骤2‑2:把CNN‑CTC声学模型得到的拼音输入Transformer语言模型,输出拼音转化成的文字;步骤3:意图识别和槽填充;把2‑2步骤中得到的文字输入BERT模型,输出是文字所代表的意图;通过识别出的意图,进行天气查询和音乐播放;步骤4:生成对话文本;把2‑2步骤中得到的文字输入GPT模型,输出是对话的文本,提供闲聊的功能。
技术领域
本发明涉及中文自定义唤醒与物联交互方法,特别是其中的语音识别算法、意图识别算法和自然语言生成模型。该方法可以脱离云服务平台,保证隐私安全。使用一个浅层神经网络声学模型,实现few-shot甚至zero-shot的本地自定义语音唤醒方案。使用最新的Transformer特征提取器代替传统的语言模型+解码器,借助自注意力机制实现拼音转文字的功能。使用NLP流行的预训练模型GPT和BERT,分别利用其单向和双向的特点实现自然语言生成和自然语言理解。
背景技术
随着深度学习、自然语言处理的发展,我们现在随处可见一些智能语音助手。这些语音助手被安装在了我们的手机、智能音箱等设备中,成为了用户与其他智能设备或服务的智能代理(Intelligent Agent),这种模式如今已经成为智能家居或其他物联交互中的主流方式。但这种通过智能代理传话、云端处理的方式也存在很多问题。目前各大科技公司提供的智能云服务平台都是闭源的,对于开发者来说过于依赖平台提供的接口,限制了产品功能的多样性,缺乏开发的灵活性;而对于使用者来说,其数据都发送至平台云端处理,用户的隐私得不到保障,特别是譬如智能家居这些偏向私密的场景下,数据的保密性和安全性问题尤显严重。因此,为了提高开发的灵活性和使用的安全性,迫切需要一个智能物联交互方法解决方案。
发明内容
本发明要克服现有技术的上述缺点,提供一种基于智能语音芯片的中文自定义唤醒与物联交互方法。
本发明基本内容定位于语音与自然语言处理的实现上,整体的解决方案基于一个pipeline的对话,即语言识别-意图识别-对话管理-自然语言生成-语音合成。对话的每一部分都是本课题所要研究的对象。
本发明的具体内容包括:
(1)自定义中文语音唤醒
目前亚马逊Alexa和百度DuerOS都采用了本地语音唤醒引擎Snowboy。Snowboy通过用户上传的语音数据训练特定词的识别模型。模型分为personal模型与universal模型,前者只用了极少的训练数据,只能识别特定人的语音(person dependent),后者是收集了大量语音数据后训练出的通用模型(person independent)。然而,Snowboy作为一个闭源的商业平台,对外只暴露了personal dependent模型训练的RESTful API接口。本发明将致力于找到更佳的唤醒词解决方案,第一是保证数据安全性,第二是提升模型的通用性。
(2)识别离线语音
几乎所有的智能语音开放平台都提供了“免费”的在线语音识别接口,用户的语音数据被各大平台收集,在大数据时代下这何尝不是一种隐性的收费模式?不仅如此,如今频繁曝出的大公司泄露用户隐私数据也向我们敲响了警钟,识别离线语音势在必行。如今有许多开源的离线中文语音识别方案,如PocketsPhinx。本发明将致力于将识别语音本地化,并解决因此带来的硬件计算速度无法达到要求的问题。
(3)自然语言处理
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110302440.2/2.html,转载请声明来源钻瓜专利网。