[发明专利]一种基于二元化的简历解析方法有效

专利信息
申请号: 201910260863.5 申请日: 2019-04-02
公开(公告)号: CN109948120B 公开(公告)日: 2023-03-14
发明(设计)人: 钟实;陈少燕;潘志锋 申请(专利权)人: 深圳市前海欢雀科技有限公司
主分类号: G06F40/106 分类号: G06F40/106;G06F40/197
代理公司: 北京科亿知识产权代理事务所(普通合伙) 11350 代理人: 汤东凤
地址: 518000 广东省深圳市前海深港合作区前*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 二元 简历 解析 方法
【权利要求书】:

1.一种基于二元化的简历解析方法,其特征在于,其包括:step1,批量读入简历;step2,把批量读入简历的转换成HTML以及TXT文本格式;Step3,判断转换成HTML文本格式的简历信息是否可以套用简历精确识别模板,如果可以就跳到Step4,如果不可以就跳到Step5;Step4,根据正则表达式的方法,利用XPATH对转化成HTML文本格式的简历信息进行解析,并对解析后的简历信息进行评分,判断是否高于预定义的阈值,若评分高于预定义的阈值,则跳到Step8,若评分低于预定义的阈值,则跳转到Step5;Step5,利用TensorFlow构建的BI-LSTM-CRF机器学习模型进行简历信息命名实体提取;Step6,利用标签字典及结合命名实体提取识别出简历信息,进行简历信息各个板块切割;Step7,遍历各个简历板块内容,利用数据链表存储提取出的简历信息内容;Step8,将经过简析的简历信息用JSON或XML结构化数据进行存储;在step5中,基于BI-LSTM-CRF的模型构造一个混合了多个不同类型的简历信息的语料标注库,其采用人工或者半自动方式标注语料库,基于标注好的语料库,生成一个训练模型。

2.根据权利要求1所述的一种基于二元化的简历解析方法,其特征在于,在step1中,通过提供WEB接口形式,接受经HTTP POST请求传入的简历信息。

3.根据权利要求2所述的一种基于二元化的简历解析方法,其特征在于,所述简历信息为单个简历文件时,则读取指定目录内的所述单个简历文件。

4.根据权利要求2所述的一种基于二元化的简历解析方法,其特征在于,所述简历信息为批量简历压缩包时,则读取指定目录内的所述批量简历压缩包,调用相关解压程序,将所述批量简历压缩包发送到解压的队列中进行解压。

5.根据权利要求1所述的一种基于二元化的简历解析方法,其特征在于,在step2中,利用文本转换工具Libreoffice及PDF to TXT分别将简历源文档转换成HTML以及TXT文本格式。

6.根据权利要求5所述的一种基于二元化的简历解析方法,简历源文档为MHT、docx、doc或者PDF文本格式。

7.根据权利要求1所述的一种基于二元化的简历解析方法,其特征在于,在step5中,采用Python语言下包含GPU加速的TensorFlow版本。

8.根据权利要求1所述的一种基于二元化的简历解析方法,其特征在于,在step6中,各个板块包括基本信息、求职意向、自我评估、教育经历、工作经历、项目经验、实习经历、培训经历和语言能力。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市前海欢雀科技有限公司,未经深圳市前海欢雀科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910260863.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top