[发明专利]一种数据处理方法及装置在审
申请号: | 201911419495.0 | 申请日: | 2019-12-31 |
公开(公告)号: | CN111177392A | 公开(公告)日: | 2020-05-19 |
发明(设计)人: | 刘志煌 | 申请(专利权)人: | 腾讯云计算(北京)有限责任公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 李娟 |
地址: | 100080 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 | ||
1.一种数据处理方法,其特征在于,所述方法包括:
获取待分类文本数据,根据所述待分类文本数据中的属性字段,将待分类文本数据划分为至少一个待分类文本子数据,并根据所述待分类文本数据中的属性字段,确定每个待分类文本子数据中的属性字段对应的特征字段;
按照每个待分类文本子数据的第一字符排列顺序的向量处理方式,得到第一向量特征;按照每个待分类文本子数据的第二字符排列顺序的向量处理方式,得到第二向量特征,根据所述第一向量特征以及所述第二向量特征得到每个待分类文本数据的向量特征,所述第一字符排列顺序与所述第二字符排列顺序相反;
通过学习各特征字段对各待分类文本子数据的向量特征向量解析结果的权重影响,得到每个待分类文本子数据的分类结果,并将所有待分类文本子数据的分类结果作为所述待分类文本数据的分类结果,所述第一向量处理模块、所述第二向量处理模块以及所述分类模块构成已训练的文本数据分类模型,所述文本数据分类模型是根据训练样本迭代训练得到的。
2.根据权利要求1所述的方法,其特征在于,所述将按照每个待分类文本子数据的第一字符排列顺序的向量处理方式,得到第一向量特征;按照每个待分类文本子数据的第二字符排列顺序的向量处理方式,得到第二向量特征,之前,还包括:
将所述待分类文本数据进行词向量变换,得到第一词向量;
将所述待分类文本数据中的文本属性特征分别进行词向量变换,得到第二词向量;
根据所述第一词向量以及所述第二词向量确定待分类文本数据的词向量;
所述按照每个待分类文本子数据的第一字符排列顺序的向量处理方式,得到第一向量特征;按照每个待分类文本子数据的第二字符排列顺序的向量处理方式,得到第二向量特征,包括:
按照所述待分类文本数据的各词向量的第一字符排列顺序的向量处理方式,得到第一向量特征,按照所述待分类文本数据的各词向量的第二字符排列顺序的向量处理方式,得到第二向量特征。
3.根据权利要求1所述的方法,其特征在于,所述确定每个待分类文本子数据中的属性字段对应的特征字段,包括:
确定待分类文本子数据中与已保存的特征字段集合中的各特征字段匹配的字段,并将匹配的字段作为待分类文本子数据中属性字段对应的特征字段。
4.根据权利要求1所述的方法,其特征在于,所述通过学习各特征字段对各待分类文本子数据的向量特征向量解析结果的权重影响,得到每个待分类文本子数据的分类结果之前,还包括:
根据已保存的特征字段的分类标签确定所述待分类文本子数据中的特征字段的分类标签;
所述通过学习各特征字段对各待分类文本子数据的向量特征向量解析结果的权重影响,得到每个待分类文本子数据的分类结果,包括:
通过学习各特征字段以及所述待分类文本子数据中的特征字段的分类标签对各待分类文本子数据的向量特征向量解析结果的权重影响,得到每个待分类文本子数据的分类结果。
5.根据权利要求1所述的方法,其特征在于,所述已训练的文本数据分类模型是根据训练样本迭代训练得到的,包括:
针对每次训练,获取训练样本,所述训练样本中包括一个属性字段以及该属性字段对应的特征字段,每个特征字段具有分类标签;
将所述训练样本按照第一字符排列顺序输入至待训练模型中的第一向量处理模块,得到针对所述训练样本的第一向量特征;同时,将所述训练样本按照第二字符排列顺序输入至待训练模型中的第二向量处理模块,得到针对所述训练样本的第二向量特征,根据所述第一向量特征以及所述第二向量特征,得到所述训练样本的向量特征;
将所述训练样本的向量特征以及所述训练样本中的特征字段的分类标签作为待训练模型中的已训练的分类模块的输入值,并通过所述待训练模型中的已训练的分类模块的分类结果以及所述训练样本中的特征字段的分类标签确定该次训练过程的损失函数,并通过所述损失函数调整所述待训练模型中的参数;
经过多次迭代训练,在确定所述待训练模型的损失函数满足收敛条件时,得到文本分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯云计算(北京)有限责任公司,未经腾讯云计算(北京)有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911419495.0/1.html,转载请声明来源钻瓜专利网。