[发明专利]一种大数量人才简历去重匹配分析方法有效
申请号: | 201811532406.9 | 申请日: | 2018-12-14 |
公开(公告)号: | CN109740147B | 公开(公告)日: | 2023-08-04 |
发明(设计)人: | 郑锐韬;涂旭平;李勇波;季统凯 | 申请(专利权)人: | 国云科技股份有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/279;G06F16/335;G06Q10/1053 |
代理公司: | 厦门市新华专利商标代理有限公司 35203 | 代理人: | 徐勋夫 |
地址: | 523808 广东省东莞市松山湖高*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及大数据匹配分析技术领域,尤其是一种大数量人才简历去重匹配分析方法。本发明方法基于LAS(潜在语义分析)算法及FP‑Growth算法,利用LAS(潜在语义分析)算法高效的语义分析,获取大数量人才简历的特征,基于FP‑Growth算法对简历特征进行关联匹配,从而判断大数量人才简历中是否为重复的一个人的信息。本发明方法提高了传统通过两两人才简历特征一一匹配分析的效率;使大数量的人才简历可快速分别出同为一个人的简历并进行合并;减少了大量简历的重复问题,为后续的检索、查询提供了高效的信息内容。 | ||
搜索关键词: | 一种 数量 人才 简历 匹配 分析 方法 | ||
【主权项】:
1.一种大数量人才简历去重匹配分析方法,其特征在于:所述的方法包括以下步骤:步骤1:获取一定数量人才简历的内容,分别按标点符号进行删除处理;步骤2:输入每个处理后的简历信息,构建形成基于每个人才简历的词‑文档矩阵,每个人才简历分析得出多个代表词语,及各词语的出现次数,按出现的次数进行统计;步骤3:对统计后的每个简历的词频进行处理,去除介词、副词、助词,对于单字出现达到一定频率的词进行分开另行统计处理;把处理后的各个简历的词频按简历特征进行一对多的保存,形成各个简历的特征;步骤4:从获取的第一个简历开始与后面的各个简历形成人才简历对进行两两关联分析,构建FP‑Growth关联树进行两两关联分析;获取各人才简历基于TrieTree提取出来的特征作为输入,分析两两人才简历的关联度;步骤5:经过关联分析处理后,按简历对获取有关联的特征及特征的词频,对关联的特征的词频进行统计,关联出来的简历特征按词频分别统计相同的词汇的数据,统计相同词汇的占比;步骤6:分析进行关联对比的人才简历间的词频的词汇相同率,超过50%相同率的简历,判定为同一个人的不同简历,合并为同一个人的信息;对于低于10%相同率的简历,判断为不是同一个人;对于相同率在10%~50%的简历,按相同率形成匹配度,进行标识,并可后续由人工进行判定。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国云科技股份有限公司,未经国云科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811532406.9/,转载请声明来源钻瓜专利网。
- 上一篇:一种舆情监测方法、终端及存储介质
- 下一篇:一种基于远程监督的同义词提取方法