[发明专利]数据处理方法及相关装置在审

申请号：	202111543267.1	申请日：	2021-12-16
公开（公告）号：	CN114241228A	公开（公告）日：	2022-03-25
发明（设计）人：	樊乘源;刘海锋	申请（专利权）人：	广东明创软件科技有限公司
主分类号：	G06V10/762	分类号：	G06V10/762;G06V10/774;G06V10/764;G06K9/62;G06F40/30
代理公司：	广州三环专利商标代理有限公司 44202	代理人：	郑小娟
地址：	523860 广东省东莞市长***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	数据处理方法相关装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种数据处理方法，其特征在于，所述方法包括：

获取第一实体数据集，所述第一实体数据集包括N个第一实体和M个实体属性，N、M为正整数；

根据所述M个实体属性对应的M个属性标识确定属性序列；

根据所述属性序列确定每个第一实体对应的第一特征序列，每个第一特征序列包括M个特征标识，所述M个特征标识与所述M个实体属性一一对应，每个特征标识用于表征对应的实体属性是否为实体所具备的实体属性；

对N个第一特征序列进行聚类处理以得到聚类后的X组第二实体数据集，X为正整数，每组第二实体数据集包括至少一个所述第一实体和与所述至少一个第一实体对应的Y个第一实体属性，Y为小于或等于M的自然数，所述每组第二实体数据集对应的类别标签之间相互独立，所述类别标签来自人工输入，所述X组第二实体数据集能够用于对预设分类模型进行训练以得到训练好的实体分类模型。

2.根据权利要求1所述的方法，其特征在于，所述获取第一实体数据集，包括：

从预设渠道获取原始数据集，所述原始数据集包括文本数据；

对所述文本数据进行语义识别，以确定所述文本数据中的所述N个第一实体和所述M个实体属性；

根据所述N个第一实体和所述M个实体属性确定所述第一实体数据集。

3.根据权利要求1所述的方法，其特征在于，所述根据所述M个实体属性对应的M个属性标识确定属性序列，包括：

对所述每个实体属性设置对应的所述属性标识，所述属性标识之间相互独立；

根据所述属性标识确定所述M个实体属性的排列顺序；

根据所述排列顺序确定所述属性序列。

4.根据权利要求1所述的方法，其特征在于，所述根据所述属性序列确定每个第一实体对应的第一特征序列，包括：

根据所述属性序列对所述每个第一实体进行向量初始化得到对应的第一初始化向量，每个第一初始化向量包括M个初始标识；

根据所具有的实体属性，对所述每个第一实体对应的所述M个初始标识进行赋值，以得到所述每个第一实体对应的所述M个特征标识；

根据所述每个第一实体对应的所述M个特征标识确定与所述每个第一实体对应的第一特征序列。