[发明专利]语音处理方法、装置、存储介质及计算机设备有效
申请号: | 202110397196.2 | 申请日: | 2021-04-13 |
公开(公告)号: | CN113129866B | 公开(公告)日: | 2022-08-02 |
发明(设计)人: | 黄选平 | 申请(专利权)人: | 重庆度小满优扬科技有限公司 |
主分类号: | G10L15/04 | 分类号: | G10L15/04;G10L15/26;G10L15/06 |
代理公司: | 北京知帆远景知识产权代理有限公司 11890 | 代理人: | 刘岩磊 |
地址: | 401121 重庆市渝*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 处理 方法 装置 存储 介质 计算机 设备 | ||
本申请实施例公开了一种语音处理方法、装置、存储介质及计算机设备,其中,该方法包括:获取包含多个坐席与用户进行单次通话的语音数据的语音数据集;将目标语音数据分割成多个语音片段,目标语音数据为语音数据集中当前被处理的语音数据;对目标语音数据对应的多个语音片段进行语音识别以得到多个文本数据,每一语音片段对应一个文本数据;从多个文本数据中筛选出有效通话文本数据;从有效通话文本数据中提取出目标语音数据对应的主题词对,主题词对包括主题词以及与主题词具有依存关系的目标词;遍历处理语音数据集中的每一语音数据,并将语音数据集中具有相同主题词对的语音数据对应的文本数据进行聚类,提升了分类速度和分类准确率。
技术领域
本申请涉及语音技术领域,具体涉及一种语音处理方法、装置、存储介质及计算机设备。
背景技术
在电话销售、客服、催收等众多电话通话的场景中,存在海量的录音文件,通过目前成熟的自动语音识别(Automatic Speech Recognition,ASR)技术可将音频转化为对话文本。如何从这些场景的文本中快速、准确的筛选出用户最关心的问题,以及如何对上述对话文本进行分类,已经成为业界的重要研究课题之一。
发明内容
本申请实施例提供一种语音处理方法、装置、存储介质及计算机设备,可以采用主题词对表示语音数据对应的文本的语义信息,以按照文本语义进行自动聚类,提升分类速度和分类准确率。
第一方面,提供一种语音处理方法,所述方法包括:获取语音数据集,所述语音数据集包含多个坐席与用户进行单次通话的语音数据;将目标语音数据分割成多个语音片段,其中所述目标语音数据为所述语音数据集中当前被处理的语音数据;对所述目标语音数据对应的所述多个语音片段进行语音识别以得到多个文本数据,其中每一语音片段对应一个文本数据;从所述多个文本数据中筛选出有效通话文本数据;根据所述有效通话文本数据进行主题词对的提取,以得到所述目标语音数据对应的主题词对,其中所述主题词对包括主题词以及与所述主题词具有依存关系的目标词;遍历处理所述语音数据集中的每一所述语音数据,并将所述语音数据集中具有相同主题词对的语音数据对应的文本数据进行聚类。
第二方面,提供一种语音处理装置,所述装置包括:处理单元,用于获取语音数据集,所述语音数据集包含多个坐席与用户进行单次通话的语音数据;分割单元,用于将目标语音数据分割成多个语音片段,其中所述目标语音数据为所述语音数据集中当前被处理的语音数据;语音识别单元,用于对所述目标语音数据对应的所述多个语音片段进行语音识别以得到多个文本数据,其中每一语音片段对应一个文本数据;筛选单元,用于从所述多个文本数据中筛选出有效通话文本数据;处理单元,用于根据所述有效通话文本数据进行主题词对的提取,以得到所述目标语音数据对应的主题词对,其中所述主题词对包括主题词以及与所述主题词具有依存关系的目标词;聚类单元,用于遍历处理所述语音数据集中的每一所述语音数据,并将所述语音数据集中具有相同主题词对的语音数据对应的文本数据进行聚类。
第三方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于处理器进行加载,以执行如第一方面所述的语音处理方法中的步骤。
第四方面,提供一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器通过调用所述存储器中存储的所述计算机程序,用于执行如第一方面所述的语音处理方法中的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆度小满优扬科技有限公司,未经重庆度小满优扬科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110397196.2/2.html,转载请声明来源钻瓜专利网。