[发明专利]一种基于minhash的集合相似度计算方法和系统在审

专利信息
申请号: 201611233601.2 申请日: 2016-12-28
公开(公告)号: CN106681688A 公开(公告)日: 2017-05-17
发明(设计)人: 李鹏;陆承恩 申请(专利权)人: 北京酷云互动科技有限公司
主分类号: G06F7/02 分类号: G06F7/02;G06K9/62
代理公司: 北京天昊联合知识产权代理有限公司11112 代理人: 汪源;易卫
地址: 100007 北京市东城区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于minhash的集合相似度计算方法和系统,包括:利用哈希函数将集合中的各元素映射为具有m个比特位长度的第一哈希值,建立2k个类组,每个类组对应一个标签,该标签为具有k个比特位长度的第二哈希值,不同类组对应的标签不同;对于任意一个集合,将该集合中的各元素对应的第一哈希值分配至与其前k个比特位相同的标签所对应的类组中;根据分配结果确定该集合对应于每个类组的最小哈希值;将该集合对应于每个类组的最小哈希值构成数组,数组作为该集合的最小哈希签名;根据任意两个集合的最小哈希签名计算该两个集合的相似度。本发明的技术方案可大大提升最小哈希签名速度,从而使得集合相似度计算的速度大大提升。
搜索关键词: 一种 基于 minhash 集合 相似 计算方法 系统
【主权项】:
一种基于minhash的集合相似度计算方法,其特征在于,包括:利用哈希函数将集合中的各元素映射为具有m个比特位长度的第一哈希值,其中,m为整数;建立2k个类组,每个类组对应一个标签,该标签为具有k个比特位长度的第二哈希值,不同类组对应的标签不同,其中,k为整数,且k小于m;对于任意一个集合,将该集合中的各元素对应的第一哈希值分配至与其前k个比特位相同的标签所对应的类组中;根据分配结果确定该集合对应于每个类组的最小哈希值,其中,若该类组中存在至少一个第一哈希值,则将该类组中最小的一个第一哈希值的后m‑k个比特位的值作为该集合对应于该类组的最小哈希值,若该类组中不存在第一哈希值,则该集合对应于该类组的最小哈希值记为NULL;将该集合对应于每个类组的最小哈希值构成数组,所述数组作为该集合的最小哈希签名;根据任意两个集合的最小哈希签名计算该两个集合的相似度。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京酷云互动科技有限公司,未经北京酷云互动科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201611233601.2/,转载请声明来源钻瓜专利网。

同类专利
  • 空气质量预测方法及装置-201710818682.0
  • 张永平;皋军;刘其明;孟海涛;朱成;许凯 - 盐城工学院
  • 2017-09-12 - 2019-10-11 - G06F7/02
  • 本发明实施例提供一种空气质量预测方法及装置。该方法通过获取目标日期之前一预设时间范围内的空气质量变化规律,然后根据目标日期之前一预设时间范围内的空气质量变化规律获取与目标日期相关联的空气质量历史数据,接着计算在目标日期出现每种空气质量状况的先验概率和对应的预测可靠度,再根据每种空气质量状况的先验概率和对应的预测可靠度计算出现每种空气质量状况且被正确预测的后验概率,最后根据计算出的后验概率生成空气质量预测结果,并将空气质量预测结果发送给用户终端。上述方案不必布置空气质量监测点就可以实现对未来一段时间内的空气质量进行预测,为空气质量数值预测预报提供了新的方向。
  • 一种AI运算结果的验证方法及相关产品-201880004394.4
  • 肖梦秋 - 深圳鲲云信息科技有限公司
  • 2018-08-15 - 2019-07-19 - G06F7/02
  • 本发明提供一种AI计算结果的验证方法及相关产品,所述方法包括如下步骤:从存储中读取第n层的AI计算的输入数据和参数数据,将该输入数据和参数数据输入到计算引擎执行AI计算得到AI计算结果;从存储中提取参考结果,对该参考结果进行压缩处理得到设定长度的参考摘要值,对该AI计算结果进行压缩处理得到设定长度的计算摘要值,将参考摘要值与计算摘要值输入到比对单元;比对单元比对该参考摘要值与计算摘要值是否一致,如一致,确定第n层验证通过,如不一致,确定第n层验证不通过,并发出告警信息。本申请具有效率高的优点。
  • 基于环形面阵CCD锅炉内环缝的焊枪姿态调节方法-201810033418.0
  • 洪波;唐碧波;高佳篷;芦川 - 湘潭大学
  • 2018-01-12 - 2019-06-28 - G06F7/02
  • 一种基于环形面阵CCD锅炉内环缝的焊枪姿态调节方法,用于锅炉内部圆管焊缝的焊枪姿态调节。该方法经结构光发生装置形成与焊枪轴线同心的圆环形扫描激光,再通过创新性提出的一种像素点成一定夹角放射状排列的面阵CCD接收焊缝周围形态的数据,最后利用矩阵算法得出焊枪的所有姿态角并依据姿态角自适应调节焊枪。本发明具有结构相对小巧紧凑,易于安装以及适用各种位置和各种类型焊缝的起焊点校准焊枪对准焊缝中心和姿态调节。
  • 用于提供向量横向比较功能的指令和逻辑-201610587014.7
  • E·乌尔德-阿迈德-瓦尔;C·R·扬特;S·赛尔;D·A·科什蒂杰 - 英特尔公司
  • 2011-11-30 - 2018-12-04 - G06F7/02
  • 指令和逻辑提供向量横向比较功能。响应于指定目的地操作数、向量元素的大小、源操作数、以及与源操作数中的向量元素数据字段的部分相对应的掩码的指令,一些实施例从源操作数中的与掩码相对应的指定大小的数据字段中读取值,并比较所述值是否相等。在一些实施例中,响应于检测到不相等,可采取陷入。在一些替代实施例中,可设置标志。在其他替代实施例中,可针对相应的不相等值将掩码字段设置为被掩蔽状态。在一些实施例中,响应于源操作数的所有未被掩蔽数据字段等于特定值,可将该值广播至目的地操作数中的指定大小的所有数据字段。
  • 一种在多个数据中比较大小的电路-201711029656.6
  • 张毓 - 南京火零信息科技有限公司
  • 2017-10-30 - 2018-03-27 - G06F7/02
  • 本电路可以对一帧中的数据进行比较大小。它不改变数据的相对位置,而是用序号指明每个数据在所在帧中的相对大小。采用流水线结构,在接收数据的同时进行比较,数据收完时比较也同时完成。它可以对连续到来的多个数据帧进行连续比较,无需额外的插入等待,很好的适配了通信和信号处理领域的常见接口特点。
  • 具有单端输入的N位比较逻辑-201680044666.4
  • M·加尔吉;R·阿代卡拉万 - 高通股份有限公司
  • 2016-07-12 - 2018-03-27 - G06F7/02
  • 本发明揭示的系统和方法涉及第一数字和第二数字的比较。比较器接收可为n位宽的第一和第二单端输入(即,未以差分格式表示),其中所述第一输入是所述第一数字的反转版本且所述第二输入是所述第二数字的真版本。实施部分匹配电路以仅基于所述第一单端输入和所述第二单端输入而产生部分匹配输出。实施部分失配电路以仅基于所述第一单端输入和所述第二单端输入而产生部分失配输出。实施比较输出电路以基于所述部分匹配输出和所述部分失配输出而产生所述第一和第二数字的比较输出。
  • 向量浮点测试数据类立即指令-201480005771.8
  • J·D·布拉德伯里;E·M·施瓦茨 - 国际商业机器公司
  • 2014-01-07 - 2018-03-27 - G06F7/02
  • 提供了一种向量浮点测试数据类立即指令,所述指令判定在所述指令中指定的向量的一个或多个元素是否具有一个或多个选定的类和符号。如果向量元素具有选定的类和符号,则所述指令的操作数中与所述向量元素对应的元素被设置为第一定义值,以及如果所述向量元素不具有所述选定的类和符号,则与所述向量元素对应的操作数元素被设置为第二定义值。
  • 用于状态机中的数据分析的方法及系统-201280062293.5
  • 戴维·R·布朗;哈洛德·B·诺耶思 - 美光科技公司
  • 2012-12-05 - 2017-09-22 - G06F7/02
  • 一种装置包含匹配元件(160),所述匹配元件(160)包含经配置以接收第一结果的第一数据输入,其中所述第一结果为状态机的元件对数据流的至少一部分执行的分析的结果。所述匹配元件(160)还包含经配置以接收第二结果的第二数据输入,其中所述第二结果为所述状态机的另一元件对所述数据流的至少一部分执行的分析的结果。所述匹配元件(160)进一步包含经配置以选择性地提供所述第一结果或所述第二结果的输出。
  • 一种基于FPGA的潜在目标排序方法-201611038362.5
  • 郭睿;刘进 - 北京电子工程总体研究所
  • 2016-11-23 - 2017-05-31 - G06F7/02
  • 本发明公开了一种基于FPGA的潜在目标排序方法,其具体步骤为搭建包括输入控制模块、并行比较模块、脉动排序模块和输出控制模块的基于FPGA的潜在目标排序系统;输入控制模块实现对待排序数据集个数N的配置和待排序数据缓存;并行比较模块并行比较待排序数据与已排序数据,并且设置标志位;脉动排序模块利用并行比较标志位进行数据排序;输出控制模块提供排序后数据集读取接口,以供外部读取。本发明实现了对弹上图像处理中潜在目标的排序,利用并行比较结构,获得了比DSP等处理器更高的实时性。
  • 一种基于minhash的集合相似度计算方法和系统-201611233601.2
  • 李鹏;陆承恩 - 北京酷云互动科技有限公司
  • 2016-12-28 - 2017-05-17 - G06F7/02
  • 本发明公开了一种基于minhash的集合相似度计算方法和系统,包括:利用哈希函数将集合中的各元素映射为具有m个比特位长度的第一哈希值,建立2k个类组,每个类组对应一个标签,该标签为具有k个比特位长度的第二哈希值,不同类组对应的标签不同;对于任意一个集合,将该集合中的各元素对应的第一哈希值分配至与其前k个比特位相同的标签所对应的类组中;根据分配结果确定该集合对应于每个类组的最小哈希值;将该集合对应于每个类组的最小哈希值构成数组,数组作为该集合的最小哈希签名;根据任意两个集合的最小哈希签名计算该两个集合的相似度。本发明的技术方案可大大提升最小哈希签名速度,从而使得集合相似度计算的速度大大提升。
  • 用于型式辨识处理器的电力消耗管理的方法及系统-201510507862.8
  • J·托马斯·帕夫洛夫斯基 - 美光科技公司
  • 2009-12-16 - 2015-12-16 - G06F7/02
  • 本申请涉及用于型式辨识处理器的电力消耗管理的方法及系统。本发明揭示方法及装置,其中一种装置包含型式辨识处理器(14、96、98)。在一些实施例中,所述型式辨识处理器(14、96、98)包含第一特征单元(100、102、104)块(106),所述块(106)经由第一多个局部输入导体(120)、第一块停用电路(96、124)及多个全局输入导体(119)耦合到解码器(28)。所述型式辨识处理器(14、96、98)进一步包含第二特征单元(108、110、122)块(114),所述块(114)经由第二多个局部输入导体(120)、第二块停用电路(98、126)及所述多个全局输入导体(119)耦合到所述解码器(28)。
  • 高效率的学生记录匹配-201280050737.3
  • 道格拉斯·T·夏皮罗;黛安娜·吉勒姆 - 全国学生资料库
  • 2012-08-16 - 2014-06-18 - G06F7/02
  • 公开了一种用于有效地且智能地匹配学生注册记录的系统和方法。该方法例如可以用于追踪学生从中学机构到高等教育机构的进展情况且生成关于总的大学入学率的统计资料以通知政策决定。在示例性实施方式中,匹配算法分析学生姓名的常用变型以及中学机构与学生的当前已知地址之间的地理距离,以生成较高可信度的匹配。
  • 一种基于双FPGA的高可靠计算机的数据比较装置-201220706685.8
  • 岳世锋;王东尧;叶剑波;魏勇;祝君冬;张新;江宏;李菲;严海颖;姚晓晨;林旭 - 北京康拓科技有限公司
  • 2012-12-19 - 2013-05-15 - G06F7/02
  • 本实用新型一种基于双FPGA的高可靠计算机的数据比较装置,包括总线收发器、继电器充放电控制单元、继电器以及具有比较单元的FPGA各两个,还安装有一个动态电路;其中,两个总线收发器分别用于两个FPGA与两个CPU单元间的通讯,将两个CPU处理后的数据发送均发送到两个FPGA内;两个FPGA内的比较单元分别对所在FPGA中存储的两个CPU处理后的数据进行比对;若比对结果正确则向动态电路发送反相方波信号,则动态电路通过两个继电器充放电控制单元控制两个继电器中的一个开启,另一个关闭;若比对结果错误,则向动态电路发送错误信号,则动态电路通过两个继电器充放电控制单元控制两个继电器均关闭。本实用新型的优点为:有效降低系统的复杂度、且提高了系统的可靠性。
  • 一种用加法器和比较器实现定时的方法-201210259135.0
  • 苏克农;林敏;许国斌;林凡;巢珍 - 河南中烟工业有限责任公司
  • 2012-07-25 - 2012-11-21 - G06F7/02
  • 本发明公开了一种加法器和比较器实现定时的方法,首先对第一比较器和加法器的输入值进行赋初值;在一个扫面周期内,第一比较器的输入值与第一比较器的设定值进行比较:若小于设定值时,则加法器进行加一操作,加法器的输出值输入到第二比较器的输入指令端,与第二比较器的设定值进行比较:一直到大于等于第二比较器的设定值,则第二比较器的输出端连接的器件开始动作,实现定时的功能;其中定时时间为扫描周期与加法器的累计计数的乘积。在PLC自带定时器不够的情况下,可以为控制系统提供大量的额外定时器,满足了实现系统的控制功能,丰富了PLC的应用范围,节省了一定的设备购置费用。
  • 用于内容可寻址存储器中的地址总和比较的方法和设备-201180013881.5
  • 蒂莫西·爱德华·奥齐梅克 - 高通股份有限公司
  • 2011-03-18 - 2012-11-21 - G06F7/02
  • 本发明描述一种用于(例如)翻译旁视缓冲器和内容可寻址存储器装置中的总和地址比较(A+B=K)操作的技术。将地址输入信号A和B作为输入供应到所述A+B=K操作,且K为存储于多个存储器单元中的先前值。在每一存储器单元中,响应于更新所述存储器单元而产生单一逻辑门电路输出及其反相,其中每一单一逻辑门电路将相关联的存储器单元输出和下一最低有效位邻近存储器单元输出作为输入。在所述存储器单元中的每一者中,在部分查找比较电路中产生所述A+B=K操作的与每一存储器单元相关联的一部分,其中在读取查找比较操作期间,对应的地址输入信号A和B与所述相关联的存储器单元输出和所述所产生的单一逻辑门电路输出及其反相进行组合。
  • 用于判断序列数中是否存在多于1个1的电路装置-201010609947.4
  • 任浩琪;熊振亚;林正浩 - 同济大学
  • 2010-12-23 - 2012-07-11 - G06F7/02
  • 本发明涉及一种用于判断序列数中是否存在多于1个1的电路装置,包括第一模块、第二模块、第三模块,所述的第一模块的输出与第二模块的输入连接,所述的第二模块的输出与第三模块的输入连接;所述的第一模块将输入的序列数进行分组,将序列数中设定个数的数分成一组,每组产生一个两位信号并将这两位信号传输第二模块;所述的第二模块将第一模块的每组输出两位信号进行分组,每组个数与第一模块相同,每组产生一个两位信号并将这两位信号传输个第三模块;所述的第三模块根据输入的信号进行逻辑判断是否存在多于1个‘1’。与现有技术相比,本发明具有可配置、判断速度快、面积小等优点。
  • 支持定浮点可重构的长度可配置的向量最大/最小值网络-201110415155.8
  • 王东琳;汪涛;尹磊祖;谢少林 - 中国科学院自动化研究所
  • 2011-12-13 - 2012-06-27 - G06F7/02
  • 本发明公开了一种支持定浮点可重构的长度可配置的向量最大/最小值网络,包括:并行浮点数据预处理单元,用于对接收的512位向量数据A的格式进行分析,并针对不同的数据格式分别进行处理,将处理后得到的浮点数据输出给可重构比较器网络,将处理后得到的各种标志位输出给结果选择单元;Mask寄存器,用于控制参与最大/最小值的数据;可重构比较器网络,用于将接收自并行浮点数据预处理单元的浮点数据以及接收自Mask寄存器的值作为输入,对向量数据依次进行比较,将得到的最大/值结果输出给结果选择单元;以及结果选择单元,用于接收可重构比较器网络的输出,根据接收自并行浮点数据预处理单元的各种标志位输出得到最终的向量最大/最小值结果。
  • 用于型式辨识处理器的电力消耗管理的方法及系统-200980154019.9
  • J·托马斯·帕夫洛夫斯基 - 美光科技公司
  • 2009-12-16 - 2011-12-07 - G06F7/02
  • 本发明揭示方法及装置,其中一种装置包含型式辨识处理器(14、96、98)。在一些实施例中,所述型式辨识处理器(14、96、98)包含第一特征单元(100、102、104)块(106),所述块(106)经由第一多个局部输入导体(120)、第一块停用电路(96、124)及多个全局输入导体(119)耦合到解码器(28)。所述型式辨识处理器(14、96、98)进一步包含第二特征单元(108、110、122)块(114),所述块(114)经由第二多个局部输入导体(120)、第二块停用电路(98、126)及所述多个全局输入导体(119)耦合到所述解码器(28)。
  • 启用不同数据集合的识别的系统及方法-200980148391.9
  • 哈罗德·B·诺伊斯 - 美光科技公司
  • 2009-11-17 - 2011-11-02 - G06F7/02
  • 本发明提供系统及方法,例如启用型式辨识处理器中的数据流及对应结果的识别的系统及方法。在一个实施例中,系统可包含所述型式辨识处理器及流识别寄存器,其中每一数据流的唯一流识别符(FlowID)存储于所述寄存器中。所述系统可包含存储每一数据流的结果数据(Results Data)及所述流识别符(FlowID)的结果缓冲器,以使得所述结果数据(Results Data)可与特定数据流相关。
  • 检测复制和近似复制的文件-200780036634.0
  • 莫尼卡·H·亨津格尔 - 谷歌公司
  • 2007-08-03 - 2009-09-02 - G06F7/02
  • 可以通过以下方式来识别近似复制的文档:使用第一技术来处理已接受的文档集合以确定近似复制的文档的第一集合,以及使用第二技术来处理所述第一集合以确定近似复制的文档的第二集合。第一技术可以依赖于标志次序,而第二技术可以独立于次序。第一技术可以独立于标志频率,而第二技术可以依赖于频率。第一技术可以使用基于两个文档的词语或标志的子集的表示来确定这两个文档是否是近似复制件,而第二技术可以使用基于两个文档的所有词语或标志的表示来确定这两个文档是否是近似复制件。第一技术可以使用集合相交来确定文档是否是近似复制件,而第二技术可以使用随机投射来确定文档是否是近似复制件。
  • 在便携式设备中检索和呈现信息-200780011443.9
  • 弗雷德里克·舍林;劳伦·莫瓦;马茨·赫尔曼 - UIQ技术公司
  • 2007-04-04 - 2009-04-15 - G06F7/02
  • 本发明涉及一种在被设置为交换消息的便携式设备(10)中检索联系人的方法,该便携式设备能够访问包括多个联系人的存储器装置(33,43),各个联系人与一个或多个联系人地址相关联,使得所述便携式设备(10)的用户能够与相关联系人交换消息;该便携式设备具有用于呈现联系人的呈现装置(12);以及控制所述便携式设备的操作的至少一个控制单元(40,42),该便携式设备被设置为执行所述方法。该方法特征在于包括步骤:针对所述多个联系人中的一个联系人组中的各个联系人与所述设备(10)交换的消息的数量;针对各个联系人涉及到消息交换的次数对联系人组进行排序;在所述呈现装置(12)上呈现排序后的联系人组。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top