[发明专利]基于百科知识语义增强的零样本分类方法、装置在审
申请号: | 201710607191.1 | 申请日: | 2017-07-24 |
公开(公告)号: | CN107292349A | 公开(公告)日: | 2017-10-24 |
发明(设计)人: | 张俊格;谭铁牛;黄凯奇;贾真 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京瀚仁知识产权代理事务所(普通合伙)11482 | 代理人: | 郭文浩,王世超 |
地址: | 100080 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 百科 知识 语义 增强 样本 分类 方法 装置 | ||
1.一种基于百科知识语义增强的零样本分类方法,其特征在于,包括以下步骤:
步骤S1,将未知类别图像通过训练好的卷积神经网络分类器进行分类,根据分类概率,对分类结果标签的语义特征进行凸组合作为该未知类别图像的语义特征;
步骤S2,将步骤S1中得到的未知类别图像的语义特征与预先构建的语义特征空间中的语义特征,通过最近邻分类器进行分类,得到所述未知类别图像的最终分类;
其中,
所述训练好的卷积神经网络分类器,为通过已知类别图像的训练数据集进行分类训练后的卷积神经网络分类器;
所述预先构建的语义特征空间,其构建方法为:基于图像类别通过对应的百科词条信息,采用词频-逆文档频率算法提取关键词;基于各图像类别对应的关键词的权重对关键词的词向量进行凸组合,得到各图像类别对应图像的语义特征,各语义特征的集合构成了所述预先构建的语义特征空间;所述图像类别包括已知类别图像的类别标签、未知类别图像的类别标签;
步骤S1中所述分类结果标签的语义特征,为所述预先构建的语义特征空间中对应图像类别对应图像的语义特征。
2.根据权利要求1所述的零样本分类方法,其特征在于,所述预先构建的语义特征空间的构建过程中,所述各图像类别对应图像的语义特征,其计算方法为
其中,S(w)为图像类别w的语义特征,it为图像类别w的第t个关键词,s(it)为关键词it的词向量,WTF-IDF(it)为关键词it的词频-逆文档频率权重,T为按照关键词的词频-逆文档频率权重降序选取的关键词的个数,为归一化因子。
3.根据权利要求2所述的零样本分类方法,其特征在于,步骤S1中未知类别图像的语义特征,其计算方法为
其中,f(x)为未知类别图像x的语义特征,y(x,n)为其在卷积神经网络分类器上分类概率第n高的分类结果标签,p(y(x,n)|x)为x分类结果为y(x,n)的分类概率,S(y(x,n))为分类结果标签y(x,n)在所述预先构建的语义特征空间中的语义特征,为归一化因子,N为按照分类概率降序选取的分类结果标签的个数。
4.根据权利要求3所述的零样本分类方法,其特征在于,步骤S2所述通过最近邻分类器进行分类,其方法为:
其中,y(x)为所述未知类别图像的最终分类,Y为所述预先构建的语义特征空间中各语义特征对应的图像类别的集合。
5.根据权利要求5所述的零样本分类方法,其特征在于,T≤10。
6.根据权利要求5所述的零样本分类方法,其特征在于,5≤N≤10。
7.根据权利要求1-6任一项所述的零样本分类方法,其特征在于,所述预先构建的语义特征空间,其构建过程中所述关键词的词向量的获取方法为:
采用skip-gram或CBOW词向量提取方法,在大规模语料库上训练词向量。
8.根据权利要求7所述的零样本分类方法,其特征在于,步骤S2中采用欧氏距离作为所述最近邻分类器的距离度量方式。
9.一种存储装置,其中存储有多条程序,其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-8任一项所述的基于百科知识语义增强的零样本分类方法。
10.一种处理装置,包括
处理器,适于执行各条程序;以及
存储设备,适于存储多条程序;
其特征在于,所述程序适于由处理器加载并执行以实现:
权利要求1-8任一项所述的基于百科知识语义增强的零样本分类方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710607191.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种Bagging_BSJ短文本分类方法
- 下一篇:大规模数据的异常检测方法