[发明专利]负采样方法和装置有效

申请号：	201710854316.0	申请日：	2017-09-20
公开（公告）号：	CN108460396B	公开（公告）日：	2021-10-15
发明（设计）人：	王兴光;林芬	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06F16/35
代理公司：	北京派特恩知识产权代理有限公司 11270	代理人：	蒋雅洁;张颖玲
地址：	518057 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	采样方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提出一种负采样方法和装置，其中，方法包括：确定模型训练所采用的正样本，获取正样本与待选样本之间的物理相似程度和内容相似程度，根据物理相似程度和内容相似程度，从待选样本中选取用于模型训练的负样本。通过相似程度算法，获得符合要求的模型训练的负样本，解决了现有技术中采用纯随机的方式获取负样本，负样本选择的质量较差，使得负采样的错采样率比例较高，致使模型训练的速度较慢，训练效果较差的问题。

技术领域

本发明涉及大数据分析技术领域，尤其涉及一种负采样方法和装置。

背景技术

随着信息技术的不断发展，时下已经步入了大数据时代。为了有效的利用和管理这些信息，基于内容的信息检索和数据分析称为备受关注的领域。现实世界中有很多问题是同时包含多个主题的，即多标签问题，而多标签问题中，同一个样例根据不同的主题可以标定不同的分类，多标签分类应用于文本分类、图像识别等领域，而多标签文本分类是最主要的应用，例如，对一篇新闻报道，如果从不同的角度分析就可以将其划分到不同的类别中，也就是说一篇新闻报道即可以看做是政治类的，也可以划分到经济类或体育类。

多标签分类任务中，通过样本数据对模型训练，训练后的模型可以从海量数据中筛选出需要的信息。模型的训练以及最终能够达到的效果不仅仅依赖于模型本身，还依赖于提供给模型训练使用的数据，这些数据中，有正样本和负样本，在已知的许多机器学习任务中，负样本的重要程度甚至不低于正样本，比如词嵌入模型Word2Vec。

相关技术中，在多标签学习和文档相似性学习任务中，文档的负采样的质量会对模型的学习产生很大的影响。而负采样过程中，通常采用纯随机的方式组成负样本，导致文档负采样过程出现错采样问题，从而致使模型训练速度较慢，训练结果性能较差的问题。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明提出一种负采样方法，以实现通过将获取的正样本与待选样本之间计算物理相似程度和内容相似程度，根据物理相似程度和内容相似程度确定用户模型训练的负样本，大大降低了负采样过程中错采样的比率，一定程度上提升了模型的训练速度，以及模型最终能达到的效果。

本发明提出一种负采样装置。

本发明提出一种计算机设备。

本发明提出一种计算机可读存储介质。

为达上述目的，本发明第一方面实施例提出了一种负采样方法，包括：

确定模型训练所采用的正样本；

获取所述正样本与待选样本之间的物理相似程度和内容相似程度；

根据所述物理相似程度和内容相似程度，从所述待选样本中选取用于所述模型训练的负样本。

可选地，作为第一方面的第一种可能的实现方式，获取所述正样本与待选样本之间的物理相似程度和内容相似程度，包括：

根据所述正样本，查询第一相似度矩阵，得到所述正样本与各个待选样本之间物理相似程度；其中，所述第一相似度矩阵中的元素，用于指示所在行对应的样本与所在列对应的样本之间的物理相似程度；

根据所述正样本，查询第二相似度矩阵，得到所述正样本与各个待选样本之间内容相似程度；其中，所述第二相似度矩阵中的元素，用于指示所在行对应的样本与所在列对应的样本之间的内容相似程度。

可选地，作为第一方面的第二种可能的实现方式，所述待选样本为多个，所述正样本是从所述待选样本中确定出的，所述获取所述正样本与待选样本之间的物理相似程度和内容相似程度之前，还包括：

生成多个样本对；其中，每个样本对包括所述多个待选样本中的两个，所述多个样本对中的待选样本不同；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于腾讯科技（深圳）有限公司，未经腾讯科技（深圳）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710854316.0/2.html，转载请声明来源钻瓜专利网。

上一篇：目标检测方法和装置以及模糊处理方法和装置
下一篇：图像处理方法、装置、云处理设备

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]负采样方法和装置有效

专利文献下载