[发明专利]嵌入向量的生成方法、基于企业对的同名人员分类方法及装置在审
申请号: | 202210459080.1 | 申请日: | 2022-04-27 |
公开(公告)号: | CN114860853A | 公开(公告)日: | 2022-08-05 |
发明(设计)人: | 温嘉瑶 | 申请(专利权)人: | 河南天眼查科技有限公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/901;G06K9/62 |
代理公司: | 北京工信联合知识产权代理有限公司 11266 | 代理人: | 傅婷 |
地址: | 450000 河南省郑州市郑东新区龙子湖*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 嵌入 向量 生成 方法 基于 企业 同名 人员 分类 装置 | ||
1.一种嵌入向量的生成方法,其特征在于,所述方法包括:
以企业关联关系数据库中每个企业以及每个企业之间的关联关键词为节点,以每个企业之间的关系以及每个企业与每个关联关键词之间的关系为边,生成企业关联关系异构图;其中,每个关联关键词的所有边的权重之和均相同;
对所述企业关联关系异构图进行采样,得到每个企业的采样序列;
采用预设的自然语言处理模型对所述每个企业的采样序列进行训练处理,得到每个企业的嵌入向量。
2.根据权利要求1所述的方法,其特征在于,所述对所述企业关联关系异构图进行采样,得到每个企业的采样序列,包括:
以所述企业关联关系异构图中每个节点为起点,沿着边进行随机游走,直至途径k个节点,得到每个企业的游走序列,其中k为正整数。
3.根据权利要求2所述的方法,其特征在于,当一个节点具有多个边时,所述沿着边进行随机游走,包括:
根据每条边的权重,确定沿着每条边进行随机游走的概率。
4.根据权利要求1所述的方法,其特征在于,所述采用预设的自然语言处理模型对所述每个企业的采样序列进行训练处理,得到每个企业的嵌入向量,包括:
采用预设的word2vec自然语言处理模型对所述每个企业的采样序列进行训练处理,得到每个企业的嵌入向量。
5.一种基于企业对的同名人员分类方法,其特征在于,所述方法包括:
在待分类企业对中的两家企业均在当前的企业关联关系异构图中的情况下,
从预先采用如权利要求1-4任一所述方法得到的嵌入向量中,提取待分类企业对中两家企业的嵌入向量;
将所述两家企业的嵌入向量输入预先构建的二分类模型进行预测,得到预测结果;其中,所述企业对由同名人员名下的两个企业组成。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
在待分类企业对中的两家企业存在至少一家企业不在所述当前的企业关联关系异构图中的情况下,
将未在所述当前的企业关联关系异构图中的企业添加至所述当前的企业关联关系异构图中,生成最新的企业关联关系异构图;
采用与待分类企业对中的两家企业均在当前的企业关联关系异构图中类似的企业对分类方法进行企业对分类。
7.根据权利要求6所述的方法,其特征在于,所述将未在所述当前的企业关联关系异构图中的企业添加至所述当前的企业关联关系异构图中,包括:
寻找与未在所述当前的企业关联关系异构图中的企业具有关联关系的企业,将所述未在所述当前的企业关联关系异构图中的企业及其关联关键词作为新的节点,将所述未在所述当前的企业关联关系异构图中的企业与具有关联关系的企业之间的关系、所述未在所述当前的企业关联关系异构图中的企业与每个关联关键词之间的关系生成边,添加至所述当前的企业关联关系异构图中。
8.根据权利要求5-7任一所述的方法,其特征在于,所述预测结果包括将企业对划分为正标签或负标签,其中,正负标签基于所述企业对是否属于同一个自然人划分得到。
9.根据权利要求8所述的方法,其特征在于,所述二分类模型预先采用如下方法构建得到:
获取带正负标签的企业对;
从所述嵌入向量中,提取带正负标签的企业对中每个企业的嵌入向量,形成企业对的嵌入向量对;
将所述企业对的嵌入向量对输入到初始的二分类模型进行标签类别预测,得到企业对的预测标签;
根据企业对的所带正负标签和所述预测标签计算评价指标值,并通过所述评价指标值确定初始的所述二分类模型的阈值,得到最终的二分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南天眼查科技有限公司,未经河南天眼查科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210459080.1/1.html,转载请声明来源钻瓜专利网。