[发明专利]一种基于二元化的简历解析方法有效
申请号: | 201910260863.5 | 申请日: | 2019-04-02 |
公开(公告)号: | CN109948120B | 公开(公告)日: | 2023-03-14 |
发明(设计)人: | 钟实;陈少燕;潘志锋 | 申请(专利权)人: | 深圳市前海欢雀科技有限公司 |
主分类号: | G06F40/106 | 分类号: | G06F40/106;G06F40/197 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 汤东凤 |
地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 二元 简历 解析 方法 | ||
1.一种基于二元化的简历解析方法,其特征在于,其包括:step1,批量读入简历;step2,把批量读入简历的转换成HTML以及TXT文本格式;Step3,判断转换成HTML文本格式的简历信息是否可以套用简历精确识别模板,如果可以就跳到Step4,如果不可以就跳到Step5;Step4,根据正则表达式的方法,利用XPATH对转化成HTML文本格式的简历信息进行解析,并对解析后的简历信息进行评分,判断是否高于预定义的阈值,若评分高于预定义的阈值,则跳到Step8,若评分低于预定义的阈值,则跳转到Step5;Step5,利用TensorFlow构建的BI-LSTM-CRF机器学习模型进行简历信息命名实体提取;Step6,利用标签字典及结合命名实体提取识别出简历信息,进行简历信息各个板块切割;Step7,遍历各个简历板块内容,利用数据链表存储提取出的简历信息内容;Step8,将经过简析的简历信息用JSON或XML结构化数据进行存储;在step5中,基于BI-LSTM-CRF的模型构造一个混合了多个不同类型的简历信息的语料标注库,其采用人工或者半自动方式标注语料库,基于标注好的语料库,生成一个训练模型。
2.根据权利要求1所述的一种基于二元化的简历解析方法,其特征在于,在step1中,通过提供WEB接口形式,接受经HTTP POST请求传入的简历信息。
3.根据权利要求2所述的一种基于二元化的简历解析方法,其特征在于,所述简历信息为单个简历文件时,则读取指定目录内的所述单个简历文件。
4.根据权利要求2所述的一种基于二元化的简历解析方法,其特征在于,所述简历信息为批量简历压缩包时,则读取指定目录内的所述批量简历压缩包,调用相关解压程序,将所述批量简历压缩包发送到解压的队列中进行解压。
5.根据权利要求1所述的一种基于二元化的简历解析方法,其特征在于,在step2中,利用文本转换工具Libreoffice及PDF to TXT分别将简历源文档转换成HTML以及TXT文本格式。
6.根据权利要求5所述的一种基于二元化的简历解析方法,简历源文档为MHT、docx、doc或者PDF文本格式。
7.根据权利要求1所述的一种基于二元化的简历解析方法,其特征在于,在step5中,采用Python语言下包含GPU加速的TensorFlow版本。
8.根据权利要求1所述的一种基于二元化的简历解析方法,其特征在于,在step6中,各个板块包括基本信息、求职意向、自我评估、教育经历、工作经历、项目经验、实习经历、培训经历和语言能力。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市前海欢雀科技有限公司,未经深圳市前海欢雀科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910260863.5/1.html,转载请声明来源钻瓜专利网。