[发明专利]数据重新采样的方法及装置、储存介质、电子装置在审
申请号: | 201811482195.2 | 申请日: | 2018-12-05 |
公开(公告)号: | CN109783530A | 公开(公告)日: | 2019-05-21 |
发明(设计)人: | 周循 | 申请(专利权)人: | 北京网众共创科技有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/9535 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 赵囡囡;董文倩 |
地址: | 100080 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 评价指标 重新采样 电子装置 概率分布 稀疏性 计算输入数据 储存介质 存储介质 数据稀疏 推荐系统 | ||
本发明实施例提供了一种数据重新采样的方法及装置、存储介质、电子装置,所述方法包括:通过计算输入数据中用户或者物品的出现频率来确定输入数据的概率分布;根据输入数据的概率分布确定马太效应的评价指标和稀疏性问题的评价指标;根据确定的马太效应的评价指标和稀疏性问题的评价指标对输入数据进行重新采样。解决了相关技术中推荐系统存在马太效应和数据稀疏性的问题。
技术领域
本发明涉及智能技术领域,具体而言,涉及一种数据重新采样的方法及装置、存储介质、电子装置。
背景技术
近年来随着互联网的蓬勃发展,推荐系统越来越受到人们的重视。推荐系统是指利用用户的过往数据,通过数据挖掘的手段,发现用户感兴趣的物品并为用户进行推荐的产品和技术。推荐系统已经蓬勃发展了近20年,广泛应用于各个商业领域例如电商、新闻、视频等。国内外的各大互联网公司均有自己的推荐系统战略和储备。推荐系统领域的发展表现为一系列算法的发展和演化。推荐系统最早的模型为协同过滤,随后发展为逻辑回归,排序学习,混合模型已经基于深度学习的推荐系统。协同过滤模型因为其易用性和可扩展性,成为许多互联网公司设计开发推荐系统的必备基础算法。
现有的协同过滤系统存在马太效应和稀疏性问题,其中,马太效应是指在协同过滤的计算过程中,当计算用户和用户的相似性,或者物品和物品的相似性的时候,热门用户或者热门物品会和非常多的用户或者物品相似。这会导致推荐结果中出现偏差。稀疏性问题是指在协同过滤的计算过程中,因为输入数据的不全面和分布不均衡而导致推荐结果中出现偏差的现象。
针对现有技术中推荐系统存在马太效应和数据稀疏性的问题,尚未有合理的解决方案。
发明内容
本发明实施例提供了一种数据重新采样的方法及装置、存储介质、电子装置,以至少解决相关技术中推荐系统存在马太效应和数据稀疏性的问题。
根据本发明的一个实施例,提供了一种数据重新采样的方法,包括:通过计算输入数据中用户或者物品的出现频率来确定输入数据的概率分布;根据所述输入数据的概率分布确定马太效应的评价指标和稀疏性问题的评价指标;根据确定的所述马太效应的评价指标和所述稀疏性问题的评价指标对所述输入数据进行重新采样。
优选地,根据所述输入数据的概率分布确定马太效应的评价指标包括:根据所述用户或所述物品在协同过滤中的相似性得分,确定评价所述马太效应的指标。
优选地,根据所述输入数据的概率分布确定稀疏性问题的评价指标包括:根据协同过滤中与某个用户或物品相似的其他用户或物品参与计算的数量,确定评价所述稀疏性问题的指标。
优选地,根据确定的所述马太效应的评价指标和所述稀疏性问题的评价指标对所述输入数据进行重新采样包括:确定所述输入数据中每个所述用户或每个所述物品的概率分布公式;根据推导出来的所述概率分布公式计算所述马太效应评价指标和所述稀疏性问题的评价指标,与每个所述用户或每个所述物品概率分布公式之间的数学关系;根据所述数学关系对所述输入数据进行重新采样,以通过改变所述输入数据的概率分布公式来改善所述马太效应评价指标和所述稀疏性问题的评价指标。
根据本发明的另一个实施例,还提供了一种数据重新采样的装置,包括:第一确定模块,用于通过计算输入数据中用户或者物品的出现频率来确定输入数据的概率分布;第二确定模块,用于根据所述输入数据的概率分布确定马太效应的评价指标和稀疏性问题的评价指标;采样模块,用于根据确定的所述马太效应的评价指标和所述稀疏性问题的评价指标对所述输入数据进行重新采样。
优选地,所述第二确定模块包括:第一确定单元,用于根据所述用户或所述物品在协同过滤中的相似性得分,确定评价所述马太效应的指标。
优选地,所述第二确定模块包括:第二确定单元,用于根据协同过滤中与某个用户或物品相似的其他用户或物品参与计算的数量,确定评价所述稀疏性问题的指标。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京网众共创科技有限公司,未经北京网众共创科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811482195.2/2.html,转载请声明来源钻瓜专利网。