[发明专利]群体识别方法、装置及计算机可读存储介质在审
申请号: | 201910541204.9 | 申请日: | 2019-06-21 |
公开(公告)号: | CN112115305A | 公开(公告)日: | 2020-12-22 |
发明(设计)人: | 周武;俞颖晔 | 申请(专利权)人: | 杭州海康威视数字技术股份有限公司 |
主分类号: | G06F16/901 | 分类号: | G06F16/901;G06F16/906 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 李珂珂 |
地址: | 310051 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 群体 识别 方法 装置 计算机 可读 存储 介质 | ||
本申请公开了一种群体识别方法、装置及计算机可读存储介质,属于信息处理技术领域。所述方法包括:基于多个候选项集确定多个频繁项集,项集包括一个或多个参考元素;获取通过二分类模型确定的频繁项集中每个参考元素对应的辅助概率,辅助概率为参考元素是目标元素的概率,目标元素用于指示目标群体中的个体;将频繁项集中各个参考元素对应的辅助概率的加权平均值,确定为频繁项集对应的目标概率,目标概率为频繁项集是目标项集的概率,目标项集用于指示目标群体;根据各频繁项集对应的目标概率,在多个频繁项集中确定目标项集;根据目标项集确定目标群体。本申请解决了对于项集的挖掘针对性较低的问题,本申请用于识别目标群体。
技术领域
本申请涉及信息技术领域,特别涉及一种群体识别方法、装置及计算机可读存储介质。
背景技术
随着数据规模的扩大以及数据处理需求的日益增长,从海量的数据中挖掘出有潜在价值的信息对于数据处理变得越来越重要。
相关技术中,在进行数据挖掘时,通常通过构建频繁模式树(Frequent Patterntree,FP-tree)的方式挖掘出候选项集中的频繁项集。其中,项集指若干个元素(也可称为项)的集合,频繁项集指支持度大于或等于支持度阈值(英文:min_sup)的项集,支持度指某个项集在所有候选项集中出现的频率。
挖掘出的频繁项集仅能够表示该项集中的项出现的概率较大,在不同的数据处理需求中该频繁项集起到的作用相差较大,因此目前对于项集的挖掘针对性较低。
发明内容
本申请提供了一种群体识别方法、装置及计算机可读存储介质,可以解决对于项集的挖掘针对性较低的问题。所述技术方案如下:
一方面,提供了一种群体识别方法,所述方法包括:
基于多个候选项集确定多个频繁项集,项集包括一个或多个参考元素;
获取通过二分类模型确定的所述频繁项集中每个所述参考元素对应的辅助概率,所述辅助概率为所述参考元素是目标元素的概率,所述目标元素用于指示目标群体中的个体;
将所述频繁项集中各个参考元素对应的辅助概率的加权平均值,确定为所述频繁项集对应的目标概率,所述目标概率为所述频繁项集是目标项集的概率,所述目标项集用于指示目标群体;
根据各频繁项集对应的目标概率,在所述多个频繁项集中确定目标项集;
根据所述目标项集确定目标群体。
可选地,所述根据各频繁项集对应的目标概率,在所述多个频繁项集中确定目标项集,包括:
根据各频繁项集对应的目标概率的大小,确定一个或多个潜在项集;
在所述一个或多个潜在项集中确定所述目标项集。
可选地,在所述一个或多个潜在项集中确定所述目标项集,包括:
确定所述潜在项集的多个过滤参数值的加权平均值,所述潜在项集的过滤参数值为:所述潜在项集的支持度、所述潜在项集包括的目标元素的数量或所述潜在项集包括的参考元素中目标元素的数量占比;
将所述一个或多个潜在项集中多个过滤参数值的加权平均值大于过滤阈值的潜在项集,确定为所述目标项集。
可选地,在所述一个或多个潜在项集中确定所述目标项集,包括:
根据所述潜在项集的特性确定所述目标项集,所述潜在项集的特性包括:所述潜在项集包括的参考元素的属性以及所述潜在项集包括的参考元素与目标元素的关系中的一种或多种。
可选地,在所述基于多个候选项集确定多个频繁项集之前,所述方法还包括:
基于时空数据构建所述多个候选项集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州海康威视数字技术股份有限公司,未经杭州海康威视数字技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910541204.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电池包及电池包的防水处理方法
- 下一篇:泵下机械声波发生器及举升管柱