[发明专利]一种获取矩阵中向量相似度的方法和系统在审
申请号: | 201510359140.2 | 申请日: | 2015-06-25 |
公开(公告)号: | CN104881395A | 公开(公告)日: | 2015-09-02 |
发明(设计)人: | 王巍;许子立 | 申请(专利权)人: | TCL集团股份有限公司 |
主分类号: | G06F17/16 | 分类号: | G06F17/16 |
代理公司: | 深圳中一专利商标事务所 44237 | 代理人: | 张全文 |
地址: | 516006 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 获取 矩阵 向量 相似 方法 系统 | ||
1.一种获取矩阵中向量相似度的方法,其特征在于,所述方法包括:
对待获取矩阵进行预处理,所述预处理包括:去除所述待获取矩阵中的零值以及出现率低于预设的出现率阈值的值;
将所述预处理后的待获取矩阵中的值按行向量的方式存储到分布式系统;
根据Map-Reduce映射-归约模型通过抽样计算所述分布式系统中任意两个行向量的相似度。
2.如权利要求1所述的方法,其特征在于,所述根据Map-Reduce映射-归约模型通过抽样计算所述分布式系统中任意两个行向量的相似度包括:
在Map阶段,按行从所述分布式系统中抽取向量对wi、wj;
获取所述向量对wi、wj的Reduce概率;
映射所述向量对wi、wj:((wi,wj)—>1),并根据所述Reduce概率将所述映射提交到Map-Reduce模型的Reduce阶段;
在Reduce阶段,获取所述向量对wi、wj的和获取所述向量对的相似度,其中ri表示(wi,wj)对应的映射个数,R表示文章的篇数,表示对R篇文章中(wi,wj)对应的映射个数进行求和。
3.如权利要求2所述的方法,其特征在于,所述获取所述向量对wi、wj的Reduce概率具体为:
根据公式获取所述向量对wi、wj的Reduce概率,其中p为Reduce概率、e为取值范围为(0,1)的预设的向量相似度阈值、#wi为向量wi在所述分布式系统中出现的次数;
所述在Reduce阶段,获取所述向量对wi、wj的和获取所述向量对的相似度具体为:在Reduce阶段,获取所述向量对wi、wj的和并根据公式获取所述向量对的相似度,其中((wi、wj),<r1,…,rR>)。
4.如权利要求1所述的方法,其特征在于,所述去除出现率低于预设的出现率阈值的值包括:
对矩阵中的剩余数值按出现的频率进行降序排列,去除排列在后X位的数值,所述X为大于零的整数。
5.如权利要求4所述的方法,其特征在于,所述X为[剩余数值*预设比例]或int(剩余数值*预设比例)。
6.一种获取矩阵中向量相似度的系统,其特征在于,所述系统包括:
矩阵预处理单元,用于对待获取矩阵进行预处理,所述预处理包括:去除所述待获取矩阵中的零值以及出现率低于预设的出现率阈值的值;
矩阵存储单元,用于将经过所述矩阵预处理单元预处理的矩阵中的值按行向量的方式存储到分布式系统;
相似度获取单元,用于根据Map-Reduce模型通过抽样计算所述矩阵存储单元中存储的任意两个行向量的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于TCL集团股份有限公司,未经TCL集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510359140.2/1.html,转载请声明来源钻瓜专利网。