[发明专利]一种基于记账场景的短文本分类方法及装置在审
申请号: | 201811586935.7 | 申请日: | 2018-12-25 |
公开(公告)号: | CN109871443A | 公开(公告)日: | 2019-06-11 |
发明(设计)人: | 孙长会 | 申请(专利权)人: | 杭州茂财网络技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/27 |
代理公司: | 杭州丰禾专利事务所有限公司 33214 | 代理人: | 吴双 |
地址: | 310012 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 短文本分类 记账 场景 数据预处理 文本 词向量 分词 数据预处理单元 模型训练过程 文本分类模型 待分类文本 方法和装置 分类模型 人工构造 文本分类 预先建立 自动完成 高频词 停用词 网银 去除 自动化 分类 预测 | ||
本发明涉及一种基于记账场景的短文本分类方法和装置。一种基于记账场景的短文本分类方法,包括:将待分类的记账网银文本进行数据预处理,包括:分词、去除分词后的文本中的停用词和/或高频词以及提取关键词;将经过数据预处理的文本输入到输入预先建立的FastText分类模型中,预测待分类文本所述的类别。一种基于记账场景的短文本分类装置,适用于如上所述的基于记账场景的短文本分类方法,包括:数据预处理单元和文本分类单元。本发明采用FastText文本分类模型,无需人工构造特征,特征的提取能够实现自动化;也无需提前训练词向量,词向量在模型训练过程中会自动完成。
技术领域
本发明涉及信息处理领域,尤其涉及一种基于记账场景的短文本分类方法和装置。
背景技术
用户网银文本记账场景中,网银文本的生成并非来自用户,而是来自各家银行机构以及第三方交易平台,由于行业内并没有统一标准及规范术语,于是就是出现了很多诸如:“网上支付”、“快捷支付”、“银联代收”、“跨行消费”等等交易文本信息,用户在使用软件记账过程中,想将该文本进行准确分类将会很困难,一方面这些文本简短且信息含义不明确,用户不知道该分到哪个类目;另一方面,如果软件类目较多,用户在人工选择类目时,需要进行多次对比和选择,会比较费时费神,可能会降低用户记账积极性,影响用户体验。
目前常见的文本分类算法有很多,比如基于字典的关键词匹配算法,基于人工设计特征的传统机器学习分类算法(支持向量机、朴素贝叶斯等),K近邻算法,深度学习算法等。基于字典的关键词匹配算法,这类算法需要构建一份关键词到类目的映射关系字典,当进来一条文本记录,首先会进行切词,然后去字典中匹配关键词,得到对应的类目返回。这类算法虽然简单已实施,但存在很多的问题,比如字典构建耗时耗力,并且后期维护成本巨大,不具备应对新数据分类的能力,严重依赖于字典词库,并且分类存在类目歧义问题,由于基于简单的匹配规则,不考虑词与词共现概率及上下文语境,因此很容易造成类目误判。基于人工设计特征的传统机器学习分类算法较字典这类算法有一定的提升,通过人工介入,设计一系列的特征,如词频,tf-idf指标,BM25等特征,然后将提取的特征输入到支持向量机分类器中进行分类。但传统机器学习方法严重依赖人工设计的特征,而验证特征的有效性需要不断的尝试和修改,是一项费时费力的工作。另外,特征的提取,比较依赖于训练文本的长度,针对记账场景下的短文本效果不是很理想。KNN的思想也来源于向量空间模型,同样采用将文本转化为向量的思想。K近邻算法是一种基于类比的分类方法,在训练的过程中,K近邻会生成所有训练例的特征向量,并将其保存下来。给定一个未知文本,首先生成它的特征向量之后,K近邻会搜索所有的训练例,通过向量相似度比较,从中找出K个最接近的训练例,然后将未知文本分到这K个近邻中最普遍的类别中去,相似度可以通过欧氏距离或余弦定理来度量。K近邻算法的计算量大,比较依赖文本特征向量表达有效性,当向量太稀疏,既影响计算效率,也影响相似度计算的有效性,同时其分类效果受样本不平衡问题影响较严重,特别是在记账场景下,有些类目出现的频次少,而部分类目出现次数占总体的绝大部分,这种算法缺陷会受到很大影响。基于深度学习如CNN、LSTM等算法,通过构建多隐层的神经网络,可以学习到更加抽象的高层属性类别或特征,以发现数据的特征分布表示,进而进行文本分类,该类算法准确率较高,但是需要额外进行Word2Vec词向量训练,同时神经网络构建及调参过程也较复杂,模型训练异常耗时,一般长达几小时甚至更长时间才能完成训练。
申请号为201610285420.8的在先专利申请公开了一种短文本分类方法及装置,分类器模型选择上其使用了基于传统机器学习的SVM分类模型。如上所述,多个类别SVM分类模型,在针对上百类目分类场景,效果欠佳。该方案的不足之处在于,需要构建与类目相同数目的分类器,这个代价花费很大。如在记账场景下,拥有100个类目,那么就需要训练100个分类器,一方面数据是否能够支持模型的有效训练存在问题,另一方面每一条文本都要经过N 个分类器的分类才能判定所属类目,计算的代价巨大。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州茂财网络技术有限公司,未经杭州茂财网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811586935.7/2.html,转载请声明来源钻瓜专利网。