[发明专利]基于银行客服场景下的文本标注方法、装置和存储介质在审

申请号：	202310404470.3	申请日：	2023-04-17
公开（公告）号：	CN116431809A	公开（公告）日：	2023-07-14
发明（设计）人：	邬默;昝云飞;徐红;高翔;纪达麒;陈运文	申请（专利权）人：	达而观科技（北京）有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/289;G06Q40/02
代理公司：	北京品源专利代理有限公司 11332	代理人：	王婷
地址：	100088 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于银行客服场景文本标注方法装置存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于银行客服场景下的文本标注方法、装置和存储介质。包括：获取银行客服场景对话文本，其中，对话文本中包括对话语句；对对话文本中的对话语句进行向量转换获取对应的对话语句向量，并对对话语句向量进行密度聚类获取语句向量簇；根据语句向量簇获取待标定语句簇，并根据待标定语句簇的语义对待标定语句簇进行标签标注。通过对对话文本中大量的对话语句进行聚类获取待标定的语句簇，并根据所获取的待标定语句簇的语义对待标定语句簇进行标签标注，从而节省了人工标注和语句分析的工作量，提高了文本标注的效率和准确性。

技术领域

本发明涉及通信技术领域，尤其涉及一种基于银行客服场景下的文本标注方法、装置和存储介质。

背景技术

在当前银行业务中，有大量的客服与客户对话的文本数据已经沉淀在银行数据库中。但是由于数据体量过大，没有足够的人力资源来将其整合成为有效的，可以使用的结构化数据，造成大量的数据资源利用不足。目前常用的方案是基于文本标注所属类别，然后通过不同的分类算法，进行有监督的模型训练，从而让模型学习到每个类别的特征。

但是上文提到的大规模语音转录的对话文本由于数据体量过大，无法进行有效的人工标注分类，同时由于业务人员也没有办法明确具体分类类别，因为在确认数据前是无法知道这批数据会覆盖到哪些关注的点和类别上。

发明内容

本发明提供了一种基于银行客服场景下的文本标注方法、装置和存储介质，以实现对基于银行客服场景下文本的高效准确标注。

根据本发明的第一方面，提供了一种基于银行客服场景下的文本标注方法，包括：

获取银行客服场景对话文本，其中，所述对话文本中包括对话语句；

对所述对话文本中的对话语句进行向量转换获取对应的对话语句向量，并对所述对话语句向量进行密度聚类获取语句向量簇；

根据所述语句向量簇获取待标定语句簇，并根据所述待标定语句簇的语义对所述待标定语句簇进行标签标注。

根据本发明的另一方面，提供了一种基于银行客服场景下的文本标注装置，包括：对话文本获取模块，用于获取银行客服场景对话文本，其中，所述对话文本中包括对话语句；

语句向量簇获取模块，用于对所述对话文本中的对话语句进行向量转换获取对应的对话语句向量，并对各所述对话语句向量进行密度聚类获取语句向量簇；

标签标注模块，用于根据所述语句向量簇获取待标定语句簇，并根据所述待标定语句簇的语义对所述待标定语句簇进行标签标注。

根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及