[发明专利]基于非文本场景的文本聚类方法、装置、设备及存储介质在审
| 申请号: | 202110195010.5 | 申请日: | 2021-02-20 |
| 公开(公告)号: | CN112905792A | 公开(公告)日: | 2021-06-04 |
| 发明(设计)人: | 王开宏;陈婷;吴三平;庄伟亮 | 申请(专利权)人: | 深圳前海微众银行股份有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
| 代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 张志江 |
| 地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 文本 场景 方法 装置 设备 存储 介质 | ||
本发明涉及金融科技(Fintech)技术领域。本发明公开了一种基于非文本场景的文本聚类方法、装置、设备及计算机可读存储介质,本发明通过在非文本场景下,先抽取出需要分类的信息内在的逻辑关系,然后再根据该逻辑关系对其进行序列化,使得非文本场景下的待分类信息也能够转化成序列形式,从而具备文本中上下文的结构关系,便于后续的处理过程;通过将序列化后的待分类信息再进行向量化与聚类操作,最终得到非文本场景下待分类信息的所属类别,使得能够将文本聚类思想应用在非文本场景中,从而打破了现有的文本聚类方法应用范围的局限性。
技术领域
本发明涉及金融科技(Fintech)技术领域,尤其涉及基于非文本场景的文本聚类方法、装置、设备及计算机可读存储介质。
背景技术
随着计算机技术的发展,越来越多的技术(大数据、分布式、区块链Blockchain、人工智能等)应用在金融领域,传统金融业正在逐步向金融科技(Fintech)转变,但由于金融行业的安全性、实时性要求,也对技术提出了更高的要求。文本聚类方法是一种基于文本训练文本单词中的词向量,并将词向量作为输入,以运用聚类算法将其聚类的方法,通常运用在文本场景中,并在自然语言处理过程中起到重要作用。但在文本之外的其他应用场景中,却鲜有将文本聚类方法的思想去解决问题的实际应用,也即是反映出了现有的文本聚类方法的应用范围较为局限的技术问题。
发明内容
本发明的主要目的在于提出一种基于非文本场景的文本聚类方法、设备及计算机可读存储介质,旨在解决现有的文本聚类方法的应用范围较为局限的技术问题。
为实现上述目的,本发明提供一种基于非文本场景的文本聚类方法,所述基于非文本场景的文本聚类方法包括:
获取非文本场景下的待分类信息,并按照所述待分类信息内在的逻辑关系将所述待分类信息进行序列化,得到由若干待分类元素组成的待分类元素序列;
将所述待分类元素序列中的各所述待分类元素进行向量化,以将所述待分类元素序列转化为由若干词向量组成的待分类向量序列;
利用预设的聚类算法对所述待分类向量序列进行聚类,以将若干所述词向量划分为若干所属不同类别的向量集合。
可选地,所述上下文逻辑关系包括时间顺序,
所述获取非文本场景下的待分类信息,并按照所述待分类信息内在的逻辑关系将所述待分类信息进行序列化,得到由若干待分类元素组成的待分类元素序列的步骤包括:
接收分类指令,并基于所述分类指令获取非文本场景下的多个待分类单词以及各所述待分类单词对应的时间信息,以作为所述待分类信息;
按照基于所述时间信息所确定的时间顺序对多个所述待分类单词进行排序,并将各排序后的待分类单词作为各所述待分类元素,以组成所述待分类元素序列。
可选地,所述将各排序后的待分类单词作为各所述待分类元素,以组成所述待分类元素序列的步骤包括:
将各排序后的待分类单词作为各所述待分类元素,得到初始元素序列;
结合所述非文本场景与所述初始元素序列确定间隔时长阈值,并获取每相邻的两个所述待分类元素之间的间隔时长;
基于所述间隔时长阈值与所述间隔时长确定出所述初始元素序列中的无效待分类元素,将所述无效待分类元素从所述初始元素序列中删除,以形成所述待分类元素序列。
可选地,所述基于所述间隔时长阈值与所述间隔时长确定出所述初始元素序列中的无效待分类元素,将所述无效待分类元素从所述初始元素序列中删除,以形成所述待分类元素序列的步骤包括:
逐一判断每一所述间隔时长是否超出所述间隔时长阈值;
若是,则将所述间隔时长对应的相邻两个所述待分类元素中的前一待分类元素从所述初始元素序列中删除;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳前海微众银行股份有限公司,未经深圳前海微众银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110195010.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种前抱式婴儿腰凳
- 下一篇:确定情绪状态的方法、装置、设备和存储介质





