[发明专利]一种基于字符标签的文本分类方法及装置在审

专利信息
申请号: 202211423213.6 申请日: 2022-11-15
公开(公告)号: CN115795032A 公开(公告)日: 2023-03-14
发明(设计)人: 孟靖祥 申请(专利权)人: 中国工商银行股份有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F18/241;G06F18/22
代理公司: 北京三友知识产权代理有限公司 11127 代理人: 刘飞;党晓林
地址: 100140 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 字符 标签 文本 分类 方法 装置
【说明书】:

本文涉及金融科技领域,尤其涉及一种基于字符标签的文本分类方法及装置。该方法包括获取文本的字符序列及预定义的标签序列;根据所述字符序列的向量表示、所述标签序列的向量表示,确定所述字符序列中各字符的重要度,所述重要度为各字符对于所述标签序列中所有标签的重要度;将所述字符序列中的字符输入至预先建立的文本分类模型中,输出得到所述字符预测标签;根据所述字符的重要度及所述字符预测标签,确定文本预测标签;根据所述文本预测标签与所述预定义的标签序列中各标签的相似度,确定文本最终标签。本方案对字符在预测标签时进行了重要性区分,并构建了标签和字符特征之间的关联关系,准确进行信息推荐,帮助用户及时合理地做出决策。

技术领域

本文涉及金融科技领域,尤其是一种基于字符标签的文本分类方法及装置。

背景技术

在信息化产业日益发展的今天,金融信息已成为人们高效获取市场情报的主要途径。然而随着互联网的快速发展,信息量呈爆炸式增长,通常情况下,单条信息通常包含多个标签,如何准确地对信息进行分类,用以精确推荐和辅助决策,成为一个亟待解决的问题。

现有技术中常用的金融信息多标签分类的办法是将多标签分类问题转化为多个二分类问题(即,二元关联方法)。该方法每次针对一个标签类别开展,即每次判断样本是否属于某个类别,分多次判断之后进行整合得到结果,实际情况下多个二分类问题并不是相互独立的,它们之间往往存在一定的联系,但二元关联方法忽略了标签和文本特征之间的联系及标签之间的依赖关系,因此使用二元关联法独立地处理每个问题会导致分类不够准确。

针对目前技术存在的忽略标签与文本之间及标签之间的联系的问题,需要一种基于字符标签的文本分类方法及装置。

发明内容

为解决上述现有技术的问题,本文实施例提供了一种基于字符标签的文本分类方法。

本文实施例提供了一种基于字符标签的文本分类方法,包括:获取文本的字符序列及预定义的标签序列;根据所述字符序列的向量表示、所述标签序列的向量表示,确定所述字符序列中各字符的重要度,所述重要度为各字符对于所述标签序列中所有标签的重要度;将所述字符序列中的字符输入至预先建立的文本分类模型中,输出得到所述字符预测标签;根据所述字符的重要度及所述字符预测标签,确定文本预测标签;根据所述文本预测标签与所述预定义的标签序列中各标签的相似度,确定文本最终标签。

根据本文实施例的一个方面,所述确定所述字符序列中各字符的重要度包括:根据所述字符序列中的各字符与所述标签序列中的所有标签的相似度,确定各字符对于所有标签的重要度,所述各字符对于所有标签的重要度为绝对重要度。

根据本文实施例的一个方面,所述确定所述字符序列中各字符的重要度还包括:根据所述绝对重要度,确定文本的字符序列中所有字符的绝对重要度之和;根据所述绝对重要度及所有字符的绝对重要度之和的比值,确定各字符对于所有标签的重要度。

根据本文实施例的一个方面,所述文本分类模型的构建过程方法包括:获取预先构建的标签模型中的模型参数;利用非线性激活函数及所述标签预测模型中模型的参数,确定文本分类模型。

根据本文实施例的一个方面,所述标签预测模型的训练过程包括:获取训练样本数据,所述训练样本数据包括字符序列样本及预定义的标签序列样本;利用参数矩阵,将所述字符序列样本及所述标签序列样本的维度投影到高纬空间,得到字符序列样本中各字符样本的高纬向量及标签序列样本中各标签样本的高纬向量;构建初始标签预测模型,所述初始标签预测模型由如下公式表示:pij=sigmoid([h′i;b′j])),其中,pij表示初始预测得到的标签,hi′表示第i个字符样本的高纬向量,bj′表示第j个标签样本的高纬向量;构建初始标签预测模型的损失函数;根据所述训练样本数据输入至所述初始标签预测模型得到的输出及所述损失函数,训练所述初始标签预测模型,得到所述标签预测模型。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司,未经中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211423213.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top