[发明专利]一种海量高端人才信息数据搜索抓取方法有效
申请号: | 201210444935.X | 申请日: | 2012-11-09 |
公开(公告)号: | CN103177060A | 公开(公告)日: | 2013-06-26 |
发明(设计)人: | 付俊生;钟延光;苏小鲁;陈化北;夏兵;王勇 | 申请(专利权)人: | 国家外国专家局国外人才信息研究中心 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100873 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请涉及一种海量高端人才信息数据搜索抓取方法,其结合网络爬虫技术以及数据分析技术为企业构建所需要的人才信息数据库,是一种快速高效并且准确可靠的简历数据库构建方法。 | ||
搜索关键词: | 一种 海量 高端 人才 信息 数据 搜索 抓取 方法 | ||
【主权项】:
1.一种海量高端人才信息数据搜索抓取方法,用于抓取互联网上简历以构建简历人才库,其特征在于,包括如下步骤:步骤一,准备5000份真实的简历网页,分为10组,每组500份简历网页,所述简历网页是利用现有的网络爬出技术或人工从互联网上抓取的;步骤二、获取第一组简历中每一份简历的正文内容:由人工获取每一份简历网页上的正文内容部分,即,去除每一份简历网页上的广告,网页头,网页尾;最后由程序去除<html>标签代码;步骤三、统计每一份简历的单词总数量T:使用分词技术或者人工处理,对步骤二中得到的正文内容进行进一步处理,即,去除虚词,保留实词;把每一份简历的所有单词保存下来,并统计每一份简历的单词总数量T和每个单词出现的次数,此时的单词总数量T指的是采用分词技术处理后的实词的数量;步骤四、为每一份简历的词汇逐一打分:具体步骤为,计算每一份简历中的每一个单词在该简历中的分值;该分值=该单词在该简历中出现的次数/该简历中单词总数量T;其中,单词总数量T是步骤三得到的;步骤五、计算单词分值并排序:为了体现500份简历中最常出现的单词是哪些,需要对500份简历中相同的单词的分值求和,得到500份简历中每一个不重复的单词的得分;按照得分高低,取前100个单词,将所述分值求和后的得分前100个单词的分值命名为S1、S2、……S99、S100,该分值S1、S2、……S99、S100对应的单词分别为Word1、Word2……Word99、Word100;步骤六、计算每一份简历的“评价分值”:利用步骤五中的S1、S2、……S99、S100,对这500份简历进行打分;即,对于每一份简历,当该简历中每出现一次Word1、Word2……Word99、Word100中的个,就将该单词对应的分值相加,得到这500份简历中每一份简历的评价分值Y1,i-1,2……,499,500,其中Y1为第一份简历的评价分值,依此类推,Y500为第500份简历的评价分值;步骤七、计算500份简历的平均评价分值![]()
Y ‾ = Σ i = 1 500 Y i / 500 ]]> 步骤八、由计算机程序自动计算每一份简历的url长度Ll,i=1,2,……,499,500;步骤九,计算500份简历的url长度Li的平均值
url长度平均值L ‾ = Σ i = 1 500 L i / 500 , ]]> 其中Li是第i份简历的url的长度;步骤十、建立二维坐标系:将简历的url长度作为X轴,简历的评价分值作为Y轴,每一份简历对应到该二维坐标系中的坐标为(Li,Yi),其中i=1,2,……499,500的自然数,X坐标Li是步骤八中的结果,Y坐标Yi是步骤六的结果,得到500个点对应的散点图;步骤十一、绘制圆心:将步骤九中的
作为圆心的X坐标,步骤七中得到的
作为圆心的Y坐标;步骤十二、人工或者电脑去除步骤十中离圆心最远的100个点;步骤十三、计算最小相切圆半径和最大相切圆半径:最小相切圆半径为离圆心最近的点和圆心之间的距离;最大相切圆半径为步骤十二中去掉离圆心最远的100个点后,离圆心最远的点和圆心之间的距离;步骤十四、对剩下的九组简历,重复步骤二到步骤十三;得到10组圆心和10组圆半径,圆心为Ci,i=1,2,……,9,10,最小相切圆半径为ri,i=1,2,……,9,10,最大相切圆半径为Ri,i=1,2,……,9,10,步骤十五、求圆心和半径的平均值:圆心的平均值为10组圆心X,Y轴坐标的平均值,最小/最大相切圆半径的平均值为这10组最小/最大相切圆半径的长度平均值,在二维坐标系中绘制出圆心的平均值所在的点、平均最小相切圆和平均最大相切圆,其中平均最小/最大相切圆指的是以该圆心的平均值所在的点为圆心,以所述最小/最大相切圆半径的平均值作为半径所得到的圆;步骤十六、计算抓取新网页的最终评价分值V:为了构建简历信息库,用网络爬虫技术从互联网上抓取一新网页,利用第一组简历在步骤五中得到的前100个单词对该新网页按照步骤六打分,得到该新网页的第一评价分值V1;依此类推,利用第二组至第十组简历在步骤五中得到的前100个单词对该新网页按照步骤六打分,得到该新网页的第二至第十评价分值V2至V10,则该新网页的最终评价分值V = Σ i = 1 10 V i / 10 ; ]]> 步骤十七、计算抓取新网页的url长度:由计算机程序自动计算该新网页的url长度L;步骤十八、判断抓取的新网页是否为一份简历:步骤十七中计算出了网页的url长度L以及步骤十六中计算出了该网页的最终评价分值V;以L作为X坐标,V作为Y坐标,将(L,V)标记在步骤十五所述的二维坐标系中;如果落在最小相切圆中或落在最小相切圆上就将其判断为一份简历,称之为散点面最小相切圆简历,落在最小相切圆和最大相切圆之间的或者落在最大相切圆上的也判断为一份简历,称之为散点面最大相切圆简历,落在最大相切圆外的判断为非简历;最后将判断为简历的网页数据保存至人才信息数据库中;步骤十九、不断重复步骤十六至步骤十八,抓取更多的新网页,每抓取一新网页,就判断其是否为一份简历,是简历则保存到人才信息数据库中,直到该人才信息数据库的简历达到预定数量为止。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家外国专家局国外人才信息研究中心,未经国家外国专家局国外人才信息研究中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210444935.X/,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置