[发明专利]一种用工平台评论挖掘的方法及系统有效
申请号: | 202110369952.0 | 申请日: | 2021-04-07 |
公开(公告)号: | CN113111187B | 公开(公告)日: | 2023-03-10 |
发明(设计)人: | 吴方同;吴晓军 | 申请(专利权)人: | 河北冀联人力资源服务集团有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/216;G06F40/242;G06F40/289 |
代理公司: | 苏州瞪羚知识产权代理事务所(普通合伙) 32438 | 代理人: | 周治宇 |
地址: | 050073 河北*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用工 平台 评论 挖掘 方法 系统 | ||
1.一种用工平台评论挖掘的方法,其特征在于,
步骤101,获取用工平台工人评论数据,将所述评论数据存储在评论数据表,并将所述评论数据标识为新数据;
步骤102,构建用工单位词库;
所述构建用工单位词库具体包括:
(1)将新评论装载在文本集合XTexti(j),其中i表示新评论个数,j为第j条评论;
(2)使用indexOf()函数判断新评论数据是否含有用工单位信息,当XTexti(j).indexOf(公司)==-1,或者XTexti(j).indexOf(单位)==-1,XTexti(j).indexOf(工厂)==-1,XTexti(j).indexOf(厂子)==-1,认为该评论数据含有用工单位信息;
(3)对于含有用工单位信息的数据XTexti(j),引入jieba分词函数,将评论数据进行分词,定义分词链Dwordn(w),其中:n=1表示名词、n=2表示动词、n=3表示形容词、n=4表示数量词、n=5表示代词、n=6表示副词、n=7表示介词、n=8表示连词、n=9表示助词、n=10表示叹词、n=11表示拟声词,W表示词语的顺序,Dwordn(w)的值表示具体词汇;
(4)对分词文本Dwordn(w)进行处理,若n=1,分词为名词,引用标准名词字典Mdic,判断该分词是否在常用名词字典中,如果不在常用名词字典里函数反馈0,如果在常用名词字典里,跳到下一个词汇;
(5)对函数返回值为0的情况,查看用工单位库Bdic是否已存在该名词,若存在则跳过继续执行;
(6)用工单位词库不存在该名词,若名词位置序号小于用工单位出现位置序号p,使用AddDIC(Dwordn(w))函数,将该词汇加入用工单位词库;
步骤103,获取工人用工评论的岗位工种,构建岗位工种词库;
步骤104,构建特征向量矩阵;所述构建特征向量矩阵包括:遍历用工单位词库中新产生的用工单位,对每一个新用工单位,构建用工单位词库对应的特征向量矩阵其中Pp代表用工单位库位置索引,Cp表示岗位工种位置索引,e为共现数;
步骤105,共现频率分析;
所述共现频率分析包括:
(1)将所有评论装载到文本集合Atext中;
(2)引入jieba分词函数,将评论Atext数据进行分词,定义词库链Awordn(w),其中:n=1表示名词、n=2表示动词、n=3表示形容词、n=4表示数量词、n=5表示代词、n=6表示副词、n=7表示介词、n=8表示连词、n=9表示助词、n=10表示叹词、n=11表示拟声词;W表示词语的顺序;Awordn(w)的值表示具体词汇;
(3)对于词库链Awordn(w)中全部词汇进行词频分析,选取词汇出现频次超过阈值的词汇,构造词库链词频矩阵Awordn(w,c),其中n表示词性,w表示词汇位置,c表示词语频次;
(4)根据词库链词频矩阵Awordn(w,c)中c的数量大小,构建完全二叉Huffman树,根据每个词语对应的位置,产生对应的二进制编码k,构建Huffman向量矩阵Hwordn(w,c,k),其中k用于保存二进制编码k;
(5)对于特征向量中pp用工单位的cp岗位工种,比对向量矩阵Hwordn(w,c,k),获取pp用工单位的cp岗位工种对应的二进制编码K1值,判断向量矩阵Hwordn(w,c,k)中每个向量是否属于用工单位岗位工种库词汇,如果属于某个用工单位的cp岗位工种词库,提取其对应的Ki,利用余弦相似公式计算余弦距离,公式如下:
其中,j表示二进制编码K值的每个分量,选取余弦距离最近的前10个用工单位作为pp用工单位的cp岗位工种的共现词,加入共现词矩阵其中n表示词性,w表示位置,c表示词频,k表示二进制编码值;将保存到中;
(6)对用工单位词库、岗位工种词库进行更新;
步骤106,根据词频数据输出展示共现频率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河北冀联人力资源服务集团有限公司,未经河北冀联人力资源服务集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110369952.0/1.html,转载请声明来源钻瓜专利网。