[发明专利]负采样方法和装置有效

专利信息
申请号: 201710854316.0 申请日: 2017-09-20
公开(公告)号: CN108460396B 公开(公告)日: 2021-10-15
发明(设计)人: 王兴光;林芬 申请(专利权)人: 腾讯科技(深圳)有限公司
主分类号: G06K9/62 分类号: G06K9/62;G06F16/35
代理公司: 北京派特恩知识产权代理有限公司 11270 代理人: 蒋雅洁;张颖玲
地址: 518057 广东省深圳*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 采样 方法 装置
【说明书】:

发明提出一种负采样方法和装置,其中,方法包括:确定模型训练所采用的正样本,获取正样本与待选样本之间的物理相似程度和内容相似程度,根据物理相似程度和内容相似程度,从待选样本中选取用于模型训练的负样本。通过相似程度算法,获得符合要求的模型训练的负样本,解决了现有技术中采用纯随机的方式获取负样本,负样本选择的质量较差,使得负采样的错采样率比例较高,致使模型训练的速度较慢,训练效果较差的问题。

技术领域

本发明涉及大数据分析技术领域,尤其涉及一种负采样方法和装置。

背景技术

随着信息技术的不断发展,时下已经步入了大数据时代。为了有效的利用和管理这些 信息,基于内容的信息检索和数据分析称为备受关注的领域。现实世界中有很多问题是同 时包含多个主题的,即多标签问题,而多标签问题中,同一个样例根据不同的主题可以标 定不同的分类,多标签分类应用于文本分类、图像识别等领域,而多标签文本分类是最主 要的应用,例如,对一篇新闻报道,如果从不同的角度分析就可以将其划分到不同的类别 中,也就是说一篇新闻报道即可以看做是政治类的,也可以划分到经济类或体育类。

多标签分类任务中,通过样本数据对模型训练,训练后的模型可以从海量数据中筛选 出需要的信息。模型的训练以及最终能够达到的效果不仅仅依赖于模型本身,还依赖于提 供给模型训练使用的数据,这些数据中,有正样本和负样本,在已知的许多机器学习任务 中,负样本的重要程度甚至不低于正样本,比如词嵌入模型Word2Vec。

相关技术中,在多标签学习和文档相似性学习任务中,文档的负采样的质量会对模型 的学习产生很大的影响。而负采样过程中,通常采用纯随机的方式组成负样本,导致文档 负采样过程出现错采样问题,从而致使模型训练速度较慢,训练结果性能较差的问题。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此,本发明提出一种负采样方法,以实现通过将获取的正样本与待选样本之间计算 物理相似程度和内容相似程度,根据物理相似程度和内容相似程度确定用户模型训练的负 样本,大大降低了负采样过程中错采样的比率,一定程度上提升了模型的训练速度,以及 模型最终能达到的效果。

本发明提出一种负采样装置。

本发明提出一种计算机设备。

本发明提出一种计算机可读存储介质。

为达上述目的,本发明第一方面实施例提出了一种负采样方法,包括:

确定模型训练所采用的正样本;

获取所述正样本与待选样本之间的物理相似程度和内容相似程度;

根据所述物理相似程度和内容相似程度,从所述待选样本中选取用于所述模型训练的 负样本。

可选地,作为第一方面的第一种可能的实现方式,获取所述正样本与待选样本之间的 物理相似程度和内容相似程度,包括:

根据所述正样本,查询第一相似度矩阵,得到所述正样本与各个待选样本之间物理相 似程度;其中,所述第一相似度矩阵中的元素,用于指示所在行对应的样本与所在列对应 的样本之间的物理相似程度;

根据所述正样本,查询第二相似度矩阵,得到所述正样本与各个待选样本之间内容相 似程度;其中,所述第二相似度矩阵中的元素,用于指示所在行对应的样本与所在列对应 的样本之间的内容相似程度。

可选地,作为第一方面的第二种可能的实现方式,所述待选样本为多个,所述正样本 是从所述待选样本中确定出的,所述获取所述正样本与待选样本之间的物理相似程度和内 容相似程度之前,还包括:

生成多个样本对;其中,每个样本对包括所述多个待选样本中的两个,所述多个样本 对中的待选样本不同;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710854316.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top