[发明专利]实时音频对话报告生成方法、装置、电子设备及存储介质在审

申请号：	202110695502.0	申请日：	2021-06-23
公开（公告）号：	CN113421572A	公开（公告）日：	2021-09-21
发明（设计）人：	侯晓龙;任俊松	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G10L15/26	分类号：	G10L15/26;G10L15/16;G06N3/02;G06K9/62;G06F40/30;G06F40/211
代理公司：	深圳市赛恩倍吉知识产权代理有限公司 44334	代理人：	刘丽华;杨毅玲
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	实时音频对话报告生成方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及人工智能技术领域，提供一种实时音频对话报告生成方法、装置、电子设备及存储介质，所述方法包括：实时上报当前句的音频对话，并进行解码，对得到的当前句的目标音频进行ASR识别，得到当前句的第一转录文本；对当前句的第一转录文本进行第一预处理，得到当前句的第二转录文本；以当前句的第二转录文本为中心动态切割音频对话，确定当前句的目标转录文本；并输入至预先训练好的预测模型中，得到当前句的预测结果；当侦测到音频对话结束时，对所有句子预测结果进行聚合，得到音频对话的对话报告。本发明通过动态切割音频对话，对话结束后将所有句子的预测结果进行聚合得到对话报告，提高了对话报告生成效率和准确率。

技术领域

本发明涉及人工智能技术领域，具体涉及一种实时音频对话报告生成方法、装置、电子设备及存储介质。

背景技术

目前在进行音频对话处理过程中，针对长对话音频，等音频对话结束时，对音频对话进行总结报告生成。

然而，由于长对话音频，转录后的文本多则上千轮，如果对话报告在对话结束后再分析，一方面，由于转录后的文本数量较多，引起对话报告生成时间较长，导致对话报告延迟；另一方面，短时间内集中对大批量文本进行主题、客户关注点、客户意愿的预测等，会给服务器带来巨大的压力，进而影响文本预测准确率及效率，导致对话报告生成效率和准确率低下。

因此，有必要提出一种可以快速准确的生成音频对话报告的方法。

发明内容

鉴于以上内容，有必要提出一种实时音频对话报告生成方法、装置、电子设备及存储介质，通过动态切割音频对话，对话结束后将所有句子的预测结果进行聚合得到对话报告，提高了对话报告生成效率和准确率。

本发明的第一方面提供一种实时音频对话报告生成方法，所述方法包括：

响应于音频对话请求，查询是否存在空闲ASR资源；

当存在空闲ASR资源时，控制所述空闲ASR资源对应的第一录音装置录制音频对话，实时上报录制的当前句的音频对话，并对所述当前句的音频对话进行解码，得到当前句的目标音频；

对所述当前句的目标音频进行ASR识别，得到所述当前句的第一转录文本；

对所述当前句的第一转录文本进行第一预处理，得到所述当前句的第二转录文本；

将所述当前句的第二转录文本发送至消息队列中，实时监听消息队列并接收当前句的第二转录文本；

设定所述当前句的第二转录文本为中心动态切割所述音频对话，确定所述当前句的目标转录文本；

将所述当前句的目标转录文本输入至预先训练好的预测模型中，得到当前句的预测结果，继续执行上述过程直至所述音频对话结束；

通过所述空闲ASR资源对所述音频对话的所有句子的预测结果进行聚合，得到所述音频对话的对话报告。