[发明专利]一种基于深度学习的外呼状态识别方式有效
申请号: | 201910962912.X | 申请日: | 2019-10-11 |
公开(公告)号: | CN110705218B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 王磊 | 申请(专利权)人: | 浙江百应科技有限公司 |
主分类号: | G06F40/151 | 分类号: | G06F40/151;G06F40/216;G06F40/289;G06F16/903;G06F16/33;G06F16/65;H04M3/527 |
代理公司: | 杭州浙言专利代理事务所(普通合伙) 33370 | 代理人: | 易朝晖 |
地址: | 311121 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 状态 识别 方式 | ||
1.一种基于深度学习的外呼状态识别方式,其特征在于,包括以下步骤:
S1、下载关机、停机、暂时无法接通、正在通话、空号、无人接听、来电提醒、呼入限制、网络忙、呼出限制、线路忙、用户拒接、呼叫转移、回铃音标准嘟嘟声、彩铃音频文件各若干句;
S2、使用音频剪辑工具,对音频首尾进行空白音的切割剔除,将音频文件中的英语部分删除;
S3、将剪辑过后的音频转化成时域谱矩阵;
S4、将剪辑过后的音频通过分帧加窗等操作转换为神经网络需要的二维频谱图像信号,使用VGG的深层的卷积神经网络作为网络模型,并训练,输出会出现大量连续重复的符号,使用ctc解码,将连续相同的符号进行合并为一个符号;
S5、将中文语料进行n-gram分词,制作成一个统计语言模型,拼音转文本建模为一条隐含马尔可夫链,将拼音转换为最终的识别文本并输出;
S6、对文本进行正则匹配,将匹配后的类别进行输出;
S7、根据输出的结果对音频进行识别打标。
2.根据权利要求1所述的一种基于深度学习的外呼状态识别方式,其特征在于,在步骤S2中,音频剪辑工具截取音频首尾各8s的音频信号进行拼接。
3.根据权利要求2所述的一种基于深度学习的外呼状态识别方式,其特征在于,在步骤S2中,当音频总时长低于16s时,则进行空白音填充使音频时长为16s。
4.根据权利要求1~3任一项所述的一种基于深度学习的外呼状态识别方式,其特征在于,在步骤S2中,所述音频剪辑工具为vad技术。
5.根据权利要求1~3任一项所述的一种基于深度学习的外呼状态识别方式,其特征在于,在步骤S1中,下载关机、停机、暂时无法接通、正在通话、空号、无人接听、来电提醒、呼入限制、网络忙、呼出限制、线路忙、用户拒接、呼叫转移、回铃音标准嘟嘟声、彩铃音频文件各50句以上。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江百应科技有限公司,未经浙江百应科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910962912.X/1.html,转载请声明来源钻瓜专利网。