[发明专利]基于招聘信息的数据处理方法及装置有效
申请号: | 201910627109.0 | 申请日: | 2019-07-11 |
公开(公告)号: | CN110442862B | 公开(公告)日: | 2022-08-09 |
发明(设计)人: | 王李鹏 | 申请(专利权)人: | 新华三大数据技术有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06Q10/10;G06F16/36 |
代理公司: | 北京超成律师事务所 11646 | 代理人: | 吴迪 |
地址: | 450000 河南省郑州市高新技*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 招聘 信息 数据处理 方法 装置 | ||
1.一种基于招聘信息的数据处理方法,其特征在于,包括:
针对招聘信息文本集中每一招聘信息文本,分别执行进行如下操作,得到每一招聘信息文本中各技能实体的分值:
识别出一个招聘信息文本包括的至少一个技能实体,并确定所述至少一个技能实体中每个技能实体的熟练程度要求;
对于所述至少一个技能实体中的每个技能实体,均应用预定义的熟练程度要求与分值的对应关系,确定该技能实体对应所述一个招聘信息文本的分值;
分别计算所述招聘信息文本集中包括的各技能实体的总分值,其中,一个技能实体的总分值用于表征该一个技能实体的重要程度;
所述确定所述至少一个技能实体中每个技能实体的熟练程度要求包括:
基于已识别出的所述至少一个技能实体,对所述一个招聘信息文本进行分词处理,得到分词文本;
对于所述至少一个技能实体中的每个技能实体对应的分词文本,均在该分词文本中提取该技能实体对应的特征向量;其中,该技能实体对应的特征向量包括分词词典中各分词的特征值,所述分词词典中包括该分词文本中除技能实体以外的其他分词;对于该其他分词中每个分词的特征值,均根据该其他分词与该技能实体在分词文本中的距离确定;所述分词词典中除其他分词以外的分词的特征值为默认值;应用训练后的分类模型,根据该技能实体对应的特征向量,确定该技能实体的熟练程度要求;其中,所述分类模型为随机森林模型或逻辑回归模型,该其他分词包括该分词文本中除该技能实体之外的分词。
2.根据权利要求1所述的方法,其特征在于,基于已识别出的所述至少一个技能实体,对所述一个招聘信息文本进行分词处理,得到分词文本包括:
对所述一个招聘信息文本进行分词处理,得到分词中间文本;
复制所述分词中间文本,得到与所述至少一个技能实体中的每个技能实体一一对应的分词复制文本;
对于所述至少一个技能实体中的每个技能实体对应的分词复制文本,均在该分词复制文本中删除除该技能实体之外的其他技能实体,得到该技能实体对应的分词文本。
3.根据权利要求1所述的方法,其特征在于,所述其他分词的特征值包括该其他分词与该技能实体之间的距离折扣词频DTF值,该其他分词与该技能实体之间的DTF值根据如下公式确定:
其中,W表示一个其他分词;Wsample表示分词文本中的所有W;center表示该技能实体;distance(w,center)表示分词文本中W与center之间的距离函数;1/distance(w,center)表示W与center之间的词频距离折扣。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
确定训练样本集,所述训练样本集包括多个训练样本,每一训练样本包括一招聘信息文本样本、该一招聘信息文本样本对应的至少一个技能实体样本和该至少一个技能实体样本中每个技能实体样本的熟练程度要求标签;
基于每一训练样本的至少一个技能实体样本,对该训练样本的招聘信息文本样本进行分词处理,得到分词文本样本;
在每一训练样本的分词文本样本中提取该训练样本的至少一个技能实体样本中每个技能实体样本对应的特征向量;
依次根据每一训练样本的每一技能实体样本的特征向量以及该技能实体样本的熟练程度要求标签,对初始分类模型进行训练得到训练后的分类模型。
5.根据权利要求1所述的方法,其特征在于,在分别计算所述招聘信息文本集中包括的各技能实体的总分值之前,所述方法还包括:
根据预设规则判断所述招聘信息文本集中包括的所有技能实体中是否存在等价的技能实体;
如果存在,将所述等价的技能实体对齐为同一个技能实体;
其中,所述预设规则包括下述一项或多项:
根据预先确定的等价数据库判断;
或者,
编辑距离小于预设值的两个实体技能等价。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华三大数据技术有限公司,未经新华三大数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910627109.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:电子围栏更新的方法和通信装置
- 下一篇:纸浆、纸或板制造方法中淀粉降解的防止
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置