[发明专利]数据对象的聚类、数据处理及数据识别方法有效
申请号: | 201810253522.0 | 申请日: | 2018-03-26 |
公开(公告)号: | CN110363206B | 公开(公告)日: | 2023-06-27 |
发明(设计)人: | 樊珈珮 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F18/23213;G06F40/216;G06F40/284 |
代理公司: | 北京君以信知识产权代理有限公司 11789 | 代理人: | 谭镇 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 对象 数据处理 识别 方法 | ||
1.一种数据对象的聚类方法,其特征在于,包括:
对文本类型的数据对象进行分词,确定所述数据对象中与数据对象属性对应的至少一个分词,并将所述至少一个分词确定为对应的所述数据对象属性的数据元素;
确定所述至少一个分词的第三特征信息;其中,所述第三特征信息包括所述至少一个分词对应的词向量;
根据所述至少一个分词的第三特征信息,确定对应的所述数据元素的第二特征信息;
根据所述数据元素的第二特征信息,确定对应的所述数据对象的第一特征信息;
根据所述第一特征信息对所述数据对象进行聚类处理。
2.根据权利要求1所述的方法,其特征在于,所述确定所述数据对象中与数据对象属性对应的至少一个分词包括:
识别所述数据对象对应的数据结构,所述数据结构由至少一种数据对象属性构成;
按照所述数据结构,确定所述数据对象中与所述数据对象属性对应的至少一个分词。
3.根据权利要求2所述的方法,其特征在于,所述识别所述数据对象对应的数据结构包括:
采用数据结构识别模型识别所述数据对象对应的数据结构。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
根据标记有数据结构的数据对象样本生成所述数据结构识别模型。
5.根据权利要求1所述的方法,其特征在于,所述根据所述数据元素的第二特征信息,确定对应的所述数据对象的第一特征信息包括:
确定所述数据对象包括的数据元素对应的元素权重;
根据所述数据元素的元素权重和所述第二特征信息,确定所述数据对象的第一特征信息。
6.根据权利要求1所述的方法,其特征在于,所述根据所述至少一个分词的第三特征信息,确定对应的所述数据元素的第二特征信息包括:
提取所述至少一个分词的第三特征信息中特征最强的第三特征信息,作为所述数据元素的第二特征信息。
7.根据权利要求6所述的方法,其特征在于,所述提取所述至少一个分词的第三特征信息中特征最强的第三特征信息包括:
在所述至少一个分词对应的词向量中,提取各个维度的最大值构建新的词向量,作为所述数据元素的第二特征信息。
8.根据权利要求1所述的方法,其特征在于,所述根据所述至少一个分词的第三特征信息,确定对应的所述数据元素的第二特征信息包括:
对所述至少一个分词的第三特征信息进行均值处理,将均值作为所述数据元素的第二特征信息。
9.根据权利要求8所述的方法,其特征在于,所述对所述至少一个分词的第三特征信息进行均值处理,将均值作为所述数据元素的第二特征信息包括:
确定所述至少一个分词对应的词向量的均值,作为所述数据元素的第二特征信息。
10.根据权利要求1所述的方法,其特征在于,所述根据所述第一特征信息对所述数据对象进行聚类处理包括:
对所述第一特征信息进行k-means聚类处理,将同类的第一特征信息对应的数据对象划分至同类。
11.根据权利要求1所述的方法,其特征在于,所述方法还包括:
针对划分至同类的数据对象,按照至少一种数据对象属性进行再次聚类处理。
12.根据权利要求11所述的方法,其特征在于,所述针对划分至同类的数据对象,按照至少一种数据对象属性进行再次聚类处理包括:
以所述数据对象为顶点,以所述数据对象属性对应的数据元素为边,构建连通图;
提取所述连通图的封闭多边形,将所述封闭多边形对应的数据对象划分至同类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810253522.0/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置