[发明专利]基于生成式模型的标签标注方法在审
申请号: | 202210482520.5 | 申请日: | 2022-05-05 |
公开(公告)号: | CN114997275A | 公开(公告)日: | 2022-09-02 |
发明(设计)人: | 刘忠;冯旸赫;刘世璇;程光权;黄金才;施伟;陈晓轩;陈丽 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 长沙国科天河知识产权代理有限公司 43225 | 代理人: | 唐品利 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 生成 模型 标签 标注 方法 | ||
本发明涉及标签数据领域,公开了一种基于生成式模型的标签标注方法,本发明根据获取Corr‑LDA模型,并根据折棒理论将所述Corr‑LDA模型构建成Corr‑HDP模型;在所述Corr‑HDP模型中将β截断为k维;获取正样本和未标注样本并将所述正样本和未标注样本作为训练集的半监督学习框架;将所述半监督学习框架应用至所述Corr‑HDP模型上更新所述半监督学习框架中的每一个样本的似然概率;通过更新后的所有样本的似然概率,加强所有标签和特征之间的关联性以实现标注分类的准确性和完整性,既能对训练集中存在的不完整标注样本进行标签补全,又能对新的完全未标注的样本进行准确的标签预测,实现了解决不完整标注的技术效果。
技术领域
本申请涉及标签数据领域,特别是涉及一种基于生成式模型的标签标注方法。
背景技术
随着数据获取,存储,传输技术的发展,近些年来数据量呈现爆炸性的增长。有效的数据分类和检索方法可以更方便的管理大规模多样化的数据,从中发现有用的信息。值得注意的是,大多数现有的数据多分类的方法,无论是监督学习还是半监督学习,都假设训练数据的标签是完全合适的。本实施例认为在现实中这样的假设是比较难实现的,即使不是不可能实现的,也是不必要的和不切实际的假设。在现实中,多数训练数据的标签其实都是非完美的,存在着不完整标签或者是噪声标签。本实施例主要研究多标签分类中存在的不完整标注问题,并尝试用生成式模型来解决该问题。数据标注是一项既费时又费力的工作,由于人的主观性,不同的关注点,缺乏耐性去标注每一个细节,甚至是由于人的感知而忽略了某些细节,即使努力认真的给数据手工添加标注,一些标签仍然会有缺失。在这种情况下,这些标注的其实是不完整的,那些认为训练集中数据的标注都是完整的假设显然会误导分类学习过程。
因此,如何在标签分类中解决不完整标注成为了一个亟待解决的技术问题。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供了一种基于生成式模型的标签标注方法,旨在解决现有技术无法解决不完整标注的技术问题。
为实现上述目的,本发明提供了一种基于生成式模型的标签标注方法,所述方法包括:
获取Corr-LDA模型,并根据折棒理论将所述Corr-LDA模型构建成Corr-HDP模型;
在所述Corr-HDP模型中将β截断为k维;
获取正样本和未标注样本并将所述正样本和未标注样本作为训练集的半监督学习框架;
将所述半监督学习框架应用至所述Corr-HDP模型上更新所述半监督学习框架中的每一个样本的似然概率;
通过更新后的所有样本的似然概率,加强所有标签和特征之间的关联性以实现标注分类的准确性和完整性。
可选地,所述获取Corr-LDA模型,并根据折棒理论将所述Corr-LDA模型构建成Corr-HDP模型的步骤,包括:
获取Corr-LDA模型,使用折棒理论的记号法以获取标记:β~Stick(α),π~DP(α^π,β);
设定随机变量y~Uniform(1,…,Ni)来关联同一个样本中的特征和标签;
给定一个样本i,生成个Ni特征bi,l,服从以为参数的多项式分布;
对于Mi个标签中的任一个标签,用y来随机选择Ni个特征中的一个特征,以生成这个特征的隐藏变量z为条件生成相应的标签wi,j,其中服从以为参数的多项式分布。
可选地,所述在所述Corr-HDP模型中将β截断为k维的步骤,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210482520.5/2.html,转载请声明来源钻瓜专利网。