[发明专利]基于银行客服场景下的文本标注方法、装置和存储介质在审
申请号: | 202310404470.3 | 申请日: | 2023-04-17 |
公开(公告)号: | CN116431809A | 公开(公告)日: | 2023-07-14 |
发明(设计)人: | 邬默;昝云飞;徐红;高翔;纪达麒;陈运文 | 申请(专利权)人: | 达而观科技(北京)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06Q40/02 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 王婷 |
地址: | 100088 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 银行 客服 场景 文本 标注 方法 装置 存储 介质 | ||
本发明公开了一种基于银行客服场景下的文本标注方法、装置和存储介质。包括:获取银行客服场景对话文本,其中,对话文本中包括对话语句;对对话文本中的对话语句进行向量转换获取对应的对话语句向量,并对对话语句向量进行密度聚类获取语句向量簇;根据语句向量簇获取待标定语句簇,并根据待标定语句簇的语义对待标定语句簇进行标签标注。通过对对话文本中大量的对话语句进行聚类获取待标定的语句簇,并根据所获取的待标定语句簇的语义对待标定语句簇进行标签标注,从而节省了人工标注和语句分析的工作量,提高了文本标注的效率和准确性。
技术领域
本发明涉及通信技术领域,尤其涉及一种基于银行客服场景下的文本标注方法、装置和存储介质。
背景技术
在当前银行业务中,有大量的客服与客户对话的文本数据已经沉淀在银行数据库中。但是由于数据体量过大,没有足够的人力资源来将其整合成为有效的,可以使用的结构化数据,造成大量的数据资源利用不足。目前常用的方案是基于文本标注所属类别,然后通过不同的分类算法,进行有监督的模型训练,从而让模型学习到每个类别的特征。
但是上文提到的大规模语音转录的对话文本由于数据体量过大,无法进行有效的人工标注分类,同时由于业务人员也没有办法明确具体分类类别,因为在确认数据前是无法知道这批数据会覆盖到哪些关注的点和类别上。
发明内容
本发明提供了一种基于银行客服场景下的文本标注方法、装置和存储介质,以实现对基于银行客服场景下文本的高效准确标注。
根据本发明的第一方面,提供了一种基于银行客服场景下的文本标注方法,包括:
获取银行客服场景对话文本,其中,所述对话文本中包括对话语句;
对所述对话文本中的对话语句进行向量转换获取对应的对话语句向量,并对所述对话语句向量进行密度聚类获取语句向量簇;
根据所述语句向量簇获取待标定语句簇,并根据所述待标定语句簇的语义对所述待标定语句簇进行标签标注。
根据本发明的另一方面,提供了一种基于银行客服场景下的文本标注装置,包括:对话文本获取模块,用于获取银行客服场景对话文本,其中,所述对话文本中包括对话语句;
语句向量簇获取模块,用于对所述对话文本中的对话语句进行向量转换获取对应的对话语句向量,并对各所述对话语句向量进行密度聚类获取语句向量簇;
标签标注模块,用于根据所述语句向量簇获取待标定语句簇,并根据所述待标定语句簇的语义对所述待标定语句簇进行标签标注。
根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的方法。
根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的方法。
本发明实施例的技术方案,通过对对话文本中大量的对话语句进行聚类获取待标定的语句簇,并根据所获取的待标定语句簇的语义对待标定语句簇进行标签标注,从而节省了人工标注和语句分析的工作量,提高了文本标注的效率和准确性。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于达而观科技(北京)有限公司,未经达而观科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310404470.3/2.html,转载请声明来源钻瓜专利网。