[发明专利]具有多个语音理解引擎的智能语音理解系统和智能语音交互方法在审

申请号：	202111201895.1	申请日：	2021-10-15
公开（公告）号：	CN113936660A	公开（公告）日：	2022-01-14
发明（设计）人：	武晓梅	申请（专利权）人：	水木智库（北京）科技有限公司
主分类号：	G10L15/22	分类号：	G10L15/22;G10L15/18
代理公司：	北京瀚群律师事务所 11581	代理人：	王姗姗
地址：	100041 北京市石景山区八***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	具有语音理解引擎智能系统交互方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

具有多个语音理解引擎的智能语音理解系统和智能语音交互方法。智能语音理解系统包括：非采用转写的方式处理语音的第一语音理解引擎，采用转写的方式处理语音的第二语音理解引擎，以及理解结果判定单元，第一语音理解引擎的语音处理单元对语音进行处理，获得编码序列形式的语音数据，自然语言理解单元通过自然语言理解模型基于编码序列形式的语音数据来获得与语音对应的意图；第二语音理解引擎的语音处理单元对语音进行转写处理，获得文本形式的语音数据，自然语言理解单元通过自然语言理解模型基于文本形式的语音数据来获得与语音对应的意图；理解结果判定单元根据两个语音理解引擎的理解结果来判断与语音对应的意图。

技术领域

本发明涉及语音智能处理技术，具体而言，涉及一种具有多语音理解引擎的智能语音理解系统和智能语音交互方法。

背景技术

目前的智能语音处理(NLP)方案是在语音识别得到的文字序列的基础上进行语义分析来实现自然语言理解。具体地，先将语音转写为文字，然后通过关键词匹配技术，或者结合上下文或知识图谱，亦或借助深度学习技术，来分析该文字序列进而获得语音所表达的含义(语义)。这种方案非常依赖于语音转写的准确性。

语音转写技术本身有很大的局限。语音识别的识别准确率受到很多因素的影响，也无法建立统一的语音识别模型。例如，对于相同的字、词、短语和句子，由于受到说话人发音特点、说话习惯、说话场景、上下文、实时情绪等因素的影响，不同人的语音在音量、音调、语气、音长等方面有所差异，并且说话人发声器官与声音接收器(麦克风)之间的距离、背景噪音、多人同时说话(鸡尾酒会问题)、语音传输信道带宽(如电话语音)等外部因素也会增加语音识别的复杂度和难度。特别地，当说话人对于某些字或词的发音与其它字或词的标准发音相近或相同时，容易发生识别偏差或识别错误。

对于中文来说，大量多音字的存在更增加了获得识别率的难度。尽管目前的语音识别技术可以针对具体方言、具体口音甚至具体人来训练具体的语音识别模型，但是却无法实现这些模型的统一和自动切换，因此并不能从根本上解决发音个异性导致的识别不准的问题。

目前的语音处理方案都只包括一个语音理解引擎，使用一个转写单元/转写模型。这是因为，对于这种方案而言，转写准确率决定了语义理解的准确率，而转写的结果又具有唯一性，因此只能选择一个转写准确率更高的转写模型，例如在某一垂直领域优化过的转写模型，或者针对某一种方言或口音优化过的转写模型。但是，对于口音或方言无法预测的语音交互场景，无法事先选择或自动切换更优的转写模型，因而在转写准确率因转写模型而降低的情况下，语音理解效果也差强人意。此外，转写模型的优化也需要的很高的训练数据成本和人工成本。

发明内容

根据本发明的一个方面，提供了一种智能语音理解系统，包括：非采用转写的方式处理语音的第一语音理解引擎，采用转写的方式处理语音的第二语音理解引擎，以及理解结果判定单元，其中，第一语音理解引擎包括语音处理单元和自然语言理解单元，第一语音理解引擎的语音处理单元对语音进行处理，获得编码序列形式的语音数据，第一语音理解引擎的自然语言理解单元通过自然语言理解模型基于编码序列形式的语音数据来获得与语音对应的意图，第二语音理解引擎包括语音处理单元和自然语言理解单元，第二语音理解引擎的语音处理单元对语音进行转写处理，获得文本形式的语音数据，第二语音理解引擎的自然语言理解单元通过自然语言理解模型基于文本形式的语音数据来获得与语音对应的意图，理解结果判定单元根据第一语音理解引擎的理解结果和第二语音理解引擎的理解结果来判断与语音对应的意图。

根据本发明实施例的智能语音理解系统，可选地，第一语音理解引擎的理解结果包括语音与某个语用信息分类节点相对应的置信度，第二语音理解引擎的理解结果包括同一条语音与某个语用信息分类节点相对应的置信度，理解结果判定单元根据第一语音理解引擎关于语用信息分类节点的设定阈值和第二语音理解引擎关于语用信息分类节点的设定阈值来获得智能语音理解系统的语音理解结果。

根据本发明实施例的智能语音理解系统，可选地，置信度是语音与语音交互层的语用信息分类节点相对应的概率。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于水木智库（北京）科技有限公司，未经水木智库（北京）科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111201895.1/2.html，转载请声明来源钻瓜专利网。

上一篇：一种抗震钢筋HRB400E-Cr及生产方法
下一篇：Gaia系统中面向融合计算的数据缓存装置与系统

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]具有多个语音理解引擎的智能语音理解系统和智能语音交互方法在审

专利文献下载