[发明专利]多标记分类方法、装置、介质及计算设备在审
申请号: | 201710493622.6 | 申请日: | 2017-06-26 |
公开(公告)号: | CN107316063A | 公开(公告)日: | 2017-11-03 |
发明(设计)人: | 翁伟;朱顺痣;钟瑛;李建敏 | 申请(专利权)人: | 厦门理工学院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 厦门市精诚新创知识产权代理有限公司35218 | 代理人: | 何家富 |
地址: | 361000 福建省*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标记 分类 方法 装置 介质 计算 设备 | ||
1.一种多标记分类方法,其特征在于,所述方法包括:
针对标记集合中的每个标记,确定该标记的原始正例集和原始负例集;其中,针对每个样本,若该样本具有该标记,则该样本属于该标记的原始正例集,否则,该样本属于该标记的原始负例集;
对各标记的原始正例集和原始负例集分别进行类对齐,得到各标记的类对齐后的正例集和类对齐后的负例集;其中,各标记的类对齐后的正例集中样本数量相等、且各标记的类对齐后的负例集中样本数量相等;
根据预先确定的聚类中心个数,基于聚类分析方法确定每个类对齐后的正例集的聚类中心,以及每个类对齐后的负例集的聚类中心;
针对每个标记,计算该标记的原始正例集和原始负例集中每个样本相对于该标记的各聚类中心的距离,将得到的距离按序排列后作为该标记的与相应样本对应的特定属性,并以该标记的每个样本的特定属性为元素构成该标记的特定属性集合;
针对每个标记,将与该标记具有相关关系的其它标记的特定属性插入到该标记的特定属性集合中;
基于各标记的特定属性集合,进行分类训练。
2.根据权利要求1所述的方法,其特征在于,所述针对每个标记,将与该标记具有相关关系的其它标记的特定属性插入到该标记的特定属性集合中,具体包括:
针对指定样本,由该指定样本以及该指定样本的多个邻居样本构成一个与该指定样本对应的邻居样本集;
在多个邻居样本集的每个邻居样本集中,针对每个标记,确定该标记与其它标记同时作为同一样本的正例的频率作为该标记的共现频率;并确定该标记在该邻居样本集中的最大共现频率;
若该最大共现频率大于指定值,则将与该标记的共现频率最大的其它标记的与该邻居样本集对应的指定样本的特定属性插入到该标记的特定属性集合中。
3.根据权利要求2所述的方法,其特征在于,根据以下公式确定所述共现频率:
其中,i表示指定样本;lj表示待确定共现频率的标记;lk表示另一个标记p(i,j,k)表示在指定样本i对应的邻居样本集合中lj与lk的共现频率。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
针对指定样本,根据以下方法确定该指定样本对应的邻居样本集:
计算其它样本与该指定样本的样本差;
按照样本差从小到大的顺序选取预设邻居样本数量的样本作为该指定样本的邻居样本。
5.根据权利要求1所述的方法,其特征在于,所述对各标记的原始正例集和原始负例集分别进行类对齐,具体包括:
确定各原始正例集中样本数最大值,并针对每个标记,若该标记的原始正例集的样本数小于该样本数最大值,则对该标记的原始正例集中的样本进行重采样得到正例样本,并将正例样本添加到该标记的原始正例集中得到类对齐后的正例集;以及,
确定各原始负例集中最大样本数,并针对每个标记,若该标记的原始负例集的样本数小于该最大样本数,则对该标记的原始负例集中的样本进行重采样得到负例样本,并将该负例样本添加到该标记的原始负例集中得到类对齐后的负例集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门理工学院,未经厦门理工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710493622.6/1.html,转载请声明来源钻瓜专利网。