[发明专利]一种多维度领域关键知识的提取和存储方法有效
申请号: | 201610816682.2 | 申请日: | 2016-09-12 |
公开(公告)号: | CN106446089B | 公开(公告)日: | 2019-08-16 |
发明(设计)人: | 金芝;李戈;兰铮 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06Q10/10 |
代理公司: | 北京睿智保诚专利代理事务所(普通合伙) 11732 | 代理人: | 杨海明 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公布了一种多维度领域关键知识提取和存储方法,面向招聘服务,根据招聘服务中的关键词,自动构建和量化关键词与职位之间、关键词之间、关键词组合所表达的信息,提取出并进行表示和存储;包括:提取招聘领域的关键词,将职位信息表示成领域关键词的向量;量化关键词之间的关系,得到关键词相关系数矩阵;量化关键词与职位之间的关系,得到关键词与职位相关系数矩阵,作为度量专业技能对职位类别的权重系数;量化关键词组合所表达的信息及其与职位之间的关系;由此实现面向招聘服务的多维度领域关键知识提取和存储。本发明方法易于从语义层面进行理解,简单易行,节省人力。 | ||
搜索关键词: | 一种 多维 领域 关键 知识 提取 存储 方法 | ||
【主权项】:
1.一种多维度领域关键知识提取和存储方法,面向招聘服务,根据招聘服务中的关键词,自动构建和量化关键词与职位之间、关键词之间、关键词组合所表达的信息,提取出并进行表示和存储;具体包括如下步骤:1)提取招聘领域的关键词,将职位信息表示成领域关键词的向量;2)量化关键词之间的关系,得到关键词相关系数矩阵,用于度量专业技能之间的相关系数;3)量化关键词与职位之间的关系,得到关键词与职位相关系数矩阵,作为度量专业技能对职位类别的权重系数,用于衡量技能相对于职位的重要性;4)量化关键词组合所表达的信息及其与职位之间的关系,用于度量专业技能组合所表达的职位类别分布;再将所述关键词组合所表达的信息与职位之间的关系存储在分类器中;由此实现面向招聘服务的多维度领域关键知识提取和存储;步骤1)具体包括如下过程:11)从职位描述中统计不同专业技能关键词的频数,从职位标题中统计得到不同职位类别关键词的频数;分别对每一项专业技能和每一个职位类别赋予一个整型全局标识;12)利用所述整型全局标识,令spij表示第j项技能,#spij表示第j项技能在第i份职位文件中出现的频数,将职位文件Pi表示为式1,将职位信息表示成领域关键词的向量,完成职位文件的向量化表示:
其中,pi为该职位的类别标识;Ns为专业技能总数;步骤2)通过线性相关、位置相关和共现相关三个维度给出度量数值,得到专业技能相关系数矩阵;具体包括如下过程:21)通过皮尔森相关系数反映两个变量之间的线性相关关系,将技能x和技能y的皮尔森相关系数记为rPearson[0,1](x,y),下标中的[0,1]表示将其数值映射到[0,1]区间;皮尔森相关系数采用式2表示:
其中,n为样本容量;分子是两个变量之间的协方差;分母是两个变量标准差的乘积;22)通过Word2Vec训练,得到词向量之间的余弦距离CosDist,用于反映词与词的上下文距离信息,作为相关关系的衡量指标;将技能x和技能y向量相关系数记为1CosDist[0,1](x,y);23)对于职位向量i,技能x和技能y的出现次数分别设为#x和#y,二者在职位向量i中的共现相关系数表示为式3:
将所有职位向量的计算结果进行加权平均,得到技能x与技能y的共现相关系数,表示为式4:
24)由式2、式3、式4定义技能x与技能y的相关系数,表示为式5:r(x,y)=α*rPearson[0,1](x,y)+β*(1‑CosDist[0,1](x,y))+γ*rcooc(x,y) (式5)其中,α、β、γ为可调节参数,且α+β+γ=1;步骤3)得到关键词与职位相关系数矩阵具体包括如下步骤:31)给定n个职位文件的样本,对于第q类职位,将第j项技能spj出现的频数记为式6:
其中,I(x)为示性函数;#spj(q)为对于第q类职位,第j项技能spj出现的频数;#spij为第j项技能在第i份职位文件中出现的频数;32)第j项spj技能对于第q类职位的权重系数wj(q)由式7计算得到:
33)直接使用式7计算得到稀疏的权重系数矩阵;将式7调整为式8:
由式8计算得到关键词与职位相关系数矩阵。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610816682.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种歌词显示方法及系统及可穿戴设备
- 下一篇:一种跨库传输海量数据的方法