[发明专利]负采样方法和装置有效
申请号: | 201710854316.0 | 申请日: | 2017-09-20 |
公开(公告)号: | CN108460396B | 公开(公告)日: | 2021-10-15 |
发明(设计)人: | 王兴光;林芬 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/35 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 蒋雅洁;张颖玲 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 采样 方法 装置 | ||
本发明提出一种负采样方法和装置,其中,方法包括:确定模型训练所采用的正样本,获取正样本与待选样本之间的物理相似程度和内容相似程度,根据物理相似程度和内容相似程度,从待选样本中选取用于模型训练的负样本。通过相似程度算法,获得符合要求的模型训练的负样本,解决了现有技术中采用纯随机的方式获取负样本,负样本选择的质量较差,使得负采样的错采样率比例较高,致使模型训练的速度较慢,训练效果较差的问题。
技术领域
本发明涉及大数据分析技术领域,尤其涉及一种负采样方法和装置。
背景技术
随着信息技术的不断发展,时下已经步入了大数据时代。为了有效的利用和管理这些 信息,基于内容的信息检索和数据分析称为备受关注的领域。现实世界中有很多问题是同 时包含多个主题的,即多标签问题,而多标签问题中,同一个样例根据不同的主题可以标 定不同的分类,多标签分类应用于文本分类、图像识别等领域,而多标签文本分类是最主 要的应用,例如,对一篇新闻报道,如果从不同的角度分析就可以将其划分到不同的类别 中,也就是说一篇新闻报道即可以看做是政治类的,也可以划分到经济类或体育类。
多标签分类任务中,通过样本数据对模型训练,训练后的模型可以从海量数据中筛选 出需要的信息。模型的训练以及最终能够达到的效果不仅仅依赖于模型本身,还依赖于提 供给模型训练使用的数据,这些数据中,有正样本和负样本,在已知的许多机器学习任务 中,负样本的重要程度甚至不低于正样本,比如词嵌入模型Word2Vec。
相关技术中,在多标签学习和文档相似性学习任务中,文档的负采样的质量会对模型 的学习产生很大的影响。而负采样过程中,通常采用纯随机的方式组成负样本,导致文档 负采样过程出现错采样问题,从而致使模型训练速度较慢,训练结果性能较差的问题。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明提出一种负采样方法,以实现通过将获取的正样本与待选样本之间计算 物理相似程度和内容相似程度,根据物理相似程度和内容相似程度确定用户模型训练的负 样本,大大降低了负采样过程中错采样的比率,一定程度上提升了模型的训练速度,以及 模型最终能达到的效果。
本发明提出一种负采样装置。
本发明提出一种计算机设备。
本发明提出一种计算机可读存储介质。
为达上述目的,本发明第一方面实施例提出了一种负采样方法,包括:
确定模型训练所采用的正样本;
获取所述正样本与待选样本之间的物理相似程度和内容相似程度;
根据所述物理相似程度和内容相似程度,从所述待选样本中选取用于所述模型训练的 负样本。
可选地,作为第一方面的第一种可能的实现方式,获取所述正样本与待选样本之间的 物理相似程度和内容相似程度,包括:
根据所述正样本,查询第一相似度矩阵,得到所述正样本与各个待选样本之间物理相 似程度;其中,所述第一相似度矩阵中的元素,用于指示所在行对应的样本与所在列对应 的样本之间的物理相似程度;
根据所述正样本,查询第二相似度矩阵,得到所述正样本与各个待选样本之间内容相 似程度;其中,所述第二相似度矩阵中的元素,用于指示所在行对应的样本与所在列对应 的样本之间的内容相似程度。
可选地,作为第一方面的第二种可能的实现方式,所述待选样本为多个,所述正样本 是从所述待选样本中确定出的,所述获取所述正样本与待选样本之间的物理相似程度和内 容相似程度之前,还包括:
生成多个样本对;其中,每个样本对包括所述多个待选样本中的两个,所述多个样本 对中的待选样本不同;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710854316.0/2.html,转载请声明来源钻瓜专利网。