[发明专利]一种基于二元化的简历解析方法有效
申请号: | 201910260863.5 | 申请日: | 2019-04-02 |
公开(公告)号: | CN109948120B | 公开(公告)日: | 2023-03-14 |
发明(设计)人: | 钟实;陈少燕;潘志锋 | 申请(专利权)人: | 深圳市前海欢雀科技有限公司 |
主分类号: | G06F40/106 | 分类号: | G06F40/106;G06F40/197 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 汤东凤 |
地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于二元化的简历解析方法包括:批量读入简历;把批量读入简历的转换成HTML以及TXT文本格式;判断转换成HTML格式的简历是否可以套用简历精确识别模板;根据正则表达式的方法,利用XPATH对转化成HTML文本格式的简历信息进行解析,并对解析后的简历信息进行评分,判断是否高于预定义的阈值;利用TensorFlow构建的BI‑LSTM‑CRF机器学习模型进行简历信息命名实体提取;利用标签字典及结合命名实体提取识别出简历信息,进行简历信息各个板块切割;遍历各个简历板块内容,利用数据链表存储提取出的简历信息内容;将经过简析的简历信息用JSON或XML结构化数据进行存储。本发明可以在有限的简历样本的基础上,实现对简历信息的精准识别。 | ||
搜索关键词: | 一种 基于 二元 简历 解析 方法 | ||
【主权项】:
1.一种基于二元化的简历解析方法,其特征在于,其包括:step1,批量读入简历;step2,把批量读入简历的转换成HTML以及TXT文本格式;Step3,判断转换成HTML文本格式的简历信息是否可以套用简历精确识别模板,如果可以就跳到Step4,如果不可以就跳到Step5;Step4,根据正则表达式的方法,利用XPATH对转化成HTML文本格式的简历信息进行解析,并对解析后的简历信息进行评分,判断是否高于预定义的阈值,若评分高于预定义的阈值,则跳到Step8,若评分低于预定义的阈值,则跳转到Step5;Step5,利用TensorFlow构建的BI‑LSTM‑CRF机器学习模型进行简历信息命名实体提取;Step6,利用标签字典及结合命名实体提取识别出简历信息,进行简历信息各个板块切割;Step7,遍历各个简历板块内容,利用数据链表存储提取出的简历信息内容;Step8,将经过简析的简历信息用JSON或XML结构化数据进行存储。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市前海欢雀科技有限公司,未经深圳市前海欢雀科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910260863.5/,转载请声明来源钻瓜专利网。