[发明专利]一种海量高端人才信息数据搜索抓取方法有效
申请号: | 201210444935.X | 申请日: | 2012-11-09 |
公开(公告)号: | CN103177060A | 公开(公告)日: | 2013-06-26 |
发明(设计)人: | 付俊生;钟延光;苏小鲁;陈化北;夏兵;王勇 | 申请(专利权)人: | 国家外国专家局国外人才信息研究中心 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100873 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 海量 高端 人才 信息 数据 搜索 抓取 方法 | ||
技术领域
本发明涉及一种海量高端人才信息数据搜索抓取的方法。
背景技术
现在的企业越来越倾向于从互联网上寻找自己需要的高层次人才。目前的简历获取手段一般分为两种。一种是门户招聘网站提供简历注册系统,应聘者在该网站注册自己的简历,然后企业从网站的简历数据库中寻找自己需要的人才,这种方式提供给企业的人才资源仅限于一个或者几个网站。另一种方式是企业在普通的互联网搜索引擎中根据主题词、网站名称、时间等少数几个条件进行简单的搜索请求,搜索出的结果很少,搜索结果的准确率也不高。
发明内容
本发明所要解决的技术问题是,提供一种快速高效并且准确可靠的简历抓取方法,构建企业所需要的人才信息数据库。
本发明的搜索抓取方法是结合网络爬虫的技术以及数据分析方法,把用户搜索的需求精细化,进行高级搜索以满足用户的要求。它能够避免人工搜索那种费时费力的情况,又能够达到人工搜索同样的准确结果。系统服务器可以24小时连续不断的抓取,得到的数据量较大。
本发明采用预先学习和网络爬虫的方法,加上数据分析的方式对搜索的内容进行准确定位,完成高层次人才简历的抓取工作。网络爬虫是用来搜索一个域名下的所有网页;预先学习和数据分析是运用技术手段预先对一定量的简历进行分析得出数据,然后利用这些数据对每一个新的网页进行分析,判断是否是用户需要的网页。
利用本发明中的技术,无需人工处理或者仅需很少的人工介入,通过服务器运行,就可以构建出各个专业的简历人才数据库。并且通过实际的运行,正确率在90%以上,收获了很好的效果。
附图说明:
图1为:简历url列表图
图2为:简历词汇图
图3为:简历散点图
图4为:简历散点+平均圆心图
图5为:优化的简历散点+平均圆心图
图6为:最小最大相切圆图
图7为:平均最小最大相切圆图
具体实施方式
本申请的简历搜索方法可根据企业的不同需求构建出不同领域的简历数据库。
作为一个具体的实施方式,以下给出一个构建外籍人才信息库的例子。
实施例1
步骤一、准备真实简历网页。
提供5000份简历网页,分为十组,每组500份简历网页。这些简历全部为英文简历,可以是用现有的网络爬虫技术用电脑从互联网上抓取的,也可以是人工从互联网上检索筛选的。
预先准备的简历url列表如图1所示。
步骤二、获取第一组简历中每一份简历的正文内容。
由人工获取每一份简历网页上的正文内容部分,即,去除每一份简历网页上的广告,网页头,网页尾等非正文的信息;最后由程序去除<html>标签代码。
步骤三、统计每一份简历的单词总数量T。
使用分词技术(或者人工处理),对步骤二中得到的正文内容进行进一步处理,即,去除虚词,保留实词。把每一份简历的所有单词保存下来,并统计每一份简历的单词总数量T和每个单词出现的次数,此时的单词总数量T指的是采用分词技术处理后的实词的数量。如图2所示。
步骤四、为每一份简历的词汇逐一打分。
具体步骤为,计算每一份简历中的每一个单词在该简历中的分值。
该分值=该单词在该简历中出现的次数/该简历中单词总数量T。
其中,单词总数量T是步骤三得到的。
步骤五、计算单词分值并排序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家外国专家局国外人才信息研究中心,未经国家外国专家局国外人才信息研究中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210444935.X/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置