[发明专利]数据处理方法及相关装置在审
申请号: | 202111543267.1 | 申请日: | 2021-12-16 |
公开(公告)号: | CN114241228A | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 樊乘源;刘海锋 | 申请(专利权)人: | 广东明创软件科技有限公司 |
主分类号: | G06V10/762 | 分类号: | G06V10/762;G06V10/774;G06V10/764;G06K9/62;G06F40/30 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郑小娟 |
地址: | 523860 广东省东莞市长*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 相关 装置 | ||
1.一种数据处理方法,其特征在于,所述方法包括:
获取第一实体数据集,所述第一实体数据集包括N个第一实体和M个实体属性,N、M为正整数;
根据所述M个实体属性对应的M个属性标识确定属性序列;
根据所述属性序列确定每个第一实体对应的第一特征序列,每个第一特征序列包括M个特征标识,所述M个特征标识与所述M个实体属性一一对应,每个特征标识用于表征对应的实体属性是否为实体所具备的实体属性;
对N个第一特征序列进行聚类处理以得到聚类后的X组第二实体数据集,X为正整数,每组第二实体数据集包括至少一个所述第一实体和与所述至少一个第一实体对应的Y个第一实体属性,Y为小于或等于M的自然数,所述每组第二实体数据集对应的类别标签之间相互独立,所述类别标签来自人工输入,所述X组第二实体数据集能够用于对预设分类模型进行训练以得到训练好的实体分类模型。
2.根据权利要求1所述的方法,其特征在于,所述获取第一实体数据集,包括:
从预设渠道获取原始数据集,所述原始数据集包括文本数据;
对所述文本数据进行语义识别,以确定所述文本数据中的所述N个第一实体和所述M个实体属性;
根据所述N个第一实体和所述M个实体属性确定所述第一实体数据集。
3.根据权利要求1所述的方法,其特征在于,所述根据所述M个实体属性对应的M个属性标识确定属性序列,包括:
对所述每个实体属性设置对应的所述属性标识,所述属性标识之间相互独立;
根据所述属性标识确定所述M个实体属性的排列顺序;
根据所述排列顺序确定所述属性序列。
4.根据权利要求1所述的方法,其特征在于,所述根据所述属性序列确定每个第一实体对应的第一特征序列,包括:
根据所述属性序列对所述每个第一实体进行向量初始化得到对应的第一初始化向量,每个第一初始化向量包括M个初始标识;
根据所具有的实体属性,对所述每个第一实体对应的所述M个初始标识进行赋值,以得到所述每个第一实体对应的所述M个特征标识;
根据所述每个第一实体对应的所述M个特征标识确定与所述每个第一实体对应的第一特征序列。
5.根据权利要求4所述的方法,其特征在于,所述根据所具有的实体属性,对所述每个第一实体对应的所述M个初始标识进行赋值,以得到所述每个第一实体对应的所述M个特征标识,包括:
确定所述每个第一实体对应的所述Y个第一实体属性;
根据所述属性序列确定所述每个第一实体包括的所述Y个第一实体属性在所述属性序列中的Y个第一位置;
对所述Y个第一位置对应的Y个初始标识进行第一赋值,以及,对所述M-Y个初始标识进行第二赋值,以得到所述每个第一实体对应的所述M个特征标识。
6.根据权利要求1所述的方法,其特征在于,所述对N个第一特征序列进行聚类处理以确定聚类后的X组第二实体数据集,包括:
确定所述N个第一特征序列之间的近似度;
根据所述N个第一特征序列之间的近似度将所述N个第一实体划分为所述X组第二实体数据集,所述X组第二实体数据集对应的X个类别标签的类型包括确定类型和待确定类型。
7.根据权利要求6所述的方法,其特征在于,所述根据所述N个第一特征序列之间的近似度将所述N个第一实体划分为所述X组第二实体数据集之后,所述方法还包括:
筛选出所述确定类型对应的类别标签所对应的Z组第三实体数据集,Z为小于或等于X的正整数;
将所述Z组第三实体数据集输入所述预设分类模型进行训练,以得到所述训练好的实体分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东明创软件科技有限公司,未经广东明创软件科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111543267.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种气体超声流量计测量流道
- 下一篇:一种趣味性强的儿童教育玩具