[发明专利]一种基于无监督学习的推荐方法及系统在审

专利信息
申请号: 202111171685.2 申请日: 2021-10-08
公开(公告)号: CN113901289A 公开(公告)日: 2022-01-07
发明(设计)人: 郭鑫润 申请(专利权)人: 新华智云科技有限公司
主分类号: G06F16/9035 分类号: G06F16/9035;G06K9/62;G06N3/08
代理公司: 杭州裕阳联合专利代理有限公司 33289 代理人: 杨琪宇
地址: 310012 浙江省杭州市*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 监督 学习 推荐 方法 系统
【说明书】:

发明公开了一种基于无监督学习的推荐方法及系统,方法包括以下步骤:获取第一训练数据,第一训练数据第一次输入bert模型,得到第二训练数据,第一训练数据第二次输入bert模型,得到第三训练数据;第二训练数据和第三训练数据构成正样本对和负样本对,正样本对和负样本输入loss函数,得到损失值;判断损失值是否在预设阈值内,若是,得到精准bert模型;获取用户数据,将处理后的用户数据输入精准bert模型,计算用户数据和待推荐数据的相似度分数,根据相似度分数对用户进行推荐,有益效果在于能更好的解决词的多层特征表示和一词多义的问题,减少需要人工标注的资源,能很好的缓解标注资源不足的问题,同时可以极大的提高推荐速度。

技术领域

本发明属于推荐方法技术领域,更具体地说,本发明涉及一种基于无监督学习的推荐方法及系统。

背景技术

在推荐系统项目中,例如影视作品推荐,通常使用文本相似度(text similarity)来进行相似物品推荐,文本相似度是一种比较常用的推荐算法。文本相似度在推荐系统项目中的应用,可以归结为对简介文本计算相似度分数,通过相似度分数进行排序,根据排序结果进行推荐。在工业场景的推荐项目中,经常面临没有标注数据的问题,同时也需要考虑推荐算法的性能问题,针对工业场景的推荐项目中目前的技术方案存在以下缺陷:

第一,一种方法是使用大规模语料库,通过word2vec训练出语料库文本词向量,训练完成后将文本进行分词操作,并找出每个词对应的词向量。对文本的所有词向量进行池化操作,生成固定维度的句向量,计算两个句向量的余弦相似度来衡量文本之间的相关程度。

word2ve方法的局限之一是无法解决一词多义的问题。word2vec由词义的分布式假设出发,分布式假设的含义是一个单词的意思由频繁出现在它上下文的词给出,训练词的稠密化向量表示。而该向量在其他文本场景中是固定不变的,无法根据上下文得到不同的语义向量。

word2vec方法的另一个局限是词不具备多层特征。word2vec通过简单的向量embedding表征矩阵训练单层分类网络,固定一个单词的词向量。因此相比于bert等预训练模型,word2vec无法体现词的复杂特性,包括语法(syntax)、语义(semantics)等。

第二,另一种方案,使用bert预训练模型对两个文本进行联合表征,进行下游的文本相似度微调任务。使用人工标注资源将成对的文本打上相似度标签,用[SEP]分隔符拼接两个成对的文本,输入到bert模型中,在模型输出层获取logits层并计算sigmoid层,最终得到文本的相似度分数。

bert预训练模型的局限之一是对两个文本进行联合表征输入到bert模型的局限是需要大量人力标注资源。对两个文本进行联合表征输入到bert模型的另一个局限是模型性能不足。在模型预测时,该方法需要将两段文本同时作为输入。无法离线存储文本的embedding表征,因此难以在高并发场合下使用。

发明内容

本发明的目的在于提供一种基于无监督学习的推荐方法及系统,以解决上述现有技术中存在的推荐方法中需要大量人力来标注资源的技术问题。

为实现上述技术目的,本发明采用的技术方案如下:

一种基于无监督学习的推荐方法,包括以下步骤:

获取第一训练数据,所述第一训练数据第一次输入bert模型,得到第二训练数据,所述第一训练数据第二次输入bert模型,得到第三训练数据;

所述第二训练数据和所述第三训练数据构成正样本对和负样本对,所述正样本对和所述负样本输入loss函数,得到损失值;

判断损失值是否在预设阈值内,若否,重复运行获取第一训练数据,所述第一训练数据第一次输入bert模型以及之后的步骤;若是,得到精准bert模型;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华智云科技有限公司,未经新华智云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111171685.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top