[发明专利]彩铃识别的方法及系统、电子设备及存储介质有效
申请号: | 202010953701.2 | 申请日: | 2020-09-11 |
公开(公告)号: | CN112087726B | 公开(公告)日: | 2022-08-23 |
发明(设计)人: | 邓艳江;罗超;胡泓;李巍 | 申请(专利权)人: | 携程旅游网络技术(上海)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G10L19/02;G10L17/04;G10L15/26 |
代理公司: | 上海弼兴律师事务所 31283 | 代理人: | 杨东明;张冉 |
地址: | 200335*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 识别 方法 系统 电子设备 存储 介质 | ||
本发明公开了一种彩铃识别的方法及系统、电子设备及存储介质。其中,彩铃识别的方法包括以下步骤:将输入的音频信号转换为文本;判断是否存在与所述文本匹配的关键词;若是,则将所述音频信号识别为彩铃;若否,则将所述音频信号输入至彩铃分类模型,并根据所述彩铃分类模型的预测结果确定所述音频信号是否为彩铃;其中,所述彩铃分类模型基于训练样本训练得到,所述训练样本包括彩铃样本以及包括人声的非彩铃样本。本发明通过对音频信号转换得到的文本进行关键词匹配以识别彩铃,若未成功匹配,则将音频信号输入彩铃分类模型进行二次识别,即同时利用文本和音频进行彩铃的识别,提高了彩铃识别的准确率。
技术领域
本发明涉及计算机技术领域,特别涉及一种彩铃识别的方法及系统、电子设备及存储介质。
背景技术
随着人工智能技术的发展,很多重复性的工作将交由机器完成,客服机器人就是一种实例。彩铃是个性化多彩回铃音业务的简称,是一项由被叫客户为呼叫自己移动电话的其他主叫客户设定特殊音效(音乐、歌曲、故事情节、人物对话)的回铃音的业务。
客服机器人在使用过程中,通过语音识别功能会误将彩铃中包含的文字内容识别出来,从而导致下游的意图识别以及会话管理实效,进而使整个会话流程发生错误。因此,识别出彩铃并不让其进入下游的意图识别以及会话管理变得十分必要。
目前的彩铃大致可以分为三类:其一是纯背景音乐;其二是纯人声播报,例如:欢迎您致电某某大酒店等;其三是伴随有背景音乐的人声播报。对于前两类彩铃,可以使用传统文本匹配的方法进行识别。而对于第三类彩铃,由于背景音乐的存在,导致客服机器人无法识别出完整的句子,因此利用文本匹配的方法无法准确地将其识别出来,从而导致彩铃识别的准确率降低。
发明内容
本发明要解决的技术问题是为了克服现有技术中无法准确识别伴随有背景音乐的人声播报的彩铃的缺陷,提供一种彩铃识别方法及系统、电子设备及存储介质。
本发明是通过下述技术方案来解决上述技术问题:
本发明的第一方面提供一种彩铃识别的方法,包括以下步骤:
将输入的音频信号转换为文本;
判断是否存在与所述文本匹配的关键词;
若是,则将所述音频信号识别为彩铃;
若否,则将所述音频信号输入至彩铃分类模型,并根据所述彩铃分类模型的预测结果确定所述音频信号是否为彩铃;其中,所述彩铃分类模型基于训练样本训练得到,所述训练样本包括彩铃样本以及包括人声的非彩铃样本。
较佳地,所述将所述音频信号输入至彩铃分类模型,根据所述彩铃分类模型的预测结果确定所述音频信号是否为彩铃,具体包括:
对所述音频信号进行分帧处理,得到若干帧子音频信号;
分别对各帧子音频信号进行检测,得到有效帧,其中,所述有效帧为包括语音区的子音频信号;
将所述有效帧输入至彩铃分类模型,得到所述有效帧的预测结果;
根据所有有效帧的预测结果确定所述音频信号是否为彩铃。
较佳地,所述根据所有有效帧的预测结果确定所述音频信号是否为彩铃,具体包括:
若有效帧为彩铃的帧数与所有有效帧的帧数之比大于预设值,则确定所述音频信号为彩铃,否则,确定所述音频信号不为彩铃。
较佳地,所述将所述有效帧输入至彩铃分类模型具体包括:
对所述有效帧进行加窗和傅里叶变换的预处理,得到所述有效帧的频谱特征;
将所述有效帧的频谱特征输入至彩铃分类模型。
较佳地,所述彩铃分类模型为神经网络模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于携程旅游网络技术(上海)有限公司,未经携程旅游网络技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010953701.2/2.html,转载请声明来源钻瓜专利网。