[发明专利]二分类模型训练方法、基于企业对的同名人员分类方法及装置在审
申请号: | 202210459127.4 | 申请日: | 2022-04-27 |
公开(公告)号: | CN114861786A | 公开(公告)日: | 2022-08-05 |
发明(设计)人: | 温嘉瑶 | 申请(专利权)人: | 河南天眼查科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/28;G06F16/901 |
代理公司: | 北京工信联合知识产权代理有限公司 11266 | 代理人: | 傅婷 |
地址: | 450000 河南省郑州市郑东新区龙子湖*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分类 模型 训练 方法 基于 企业 同名 人员 装置 | ||
一种二分类模型训练方法、基于企业对的同名人员分类方法及装置,该方法包括:获取带正负标签的企业对;从企业关联关系数据库的嵌入向量中,提取带正负标签的企业对中每个企业的嵌入向量,形成企业对的嵌入向量对;将企业对的嵌入向量对输入到初始的二分类模型进行标签类别预测,得到企业对的预测标签;根据企业对的所带正负标签和预测标签计算评价指标值,并通过评价指标值确定初始的二分类模型的阈值,得到最终的二分类模型。本发明实施例提供的方法及装置,解决了现有技术中企业间关系构建不完备和不准确而导致的两家企业同时出现两个相同的人名时,难以判断两人是否为同一人的问题,可实现对同名人员的企业对的分类更加可靠和准确。
技术领域
本发明涉及图像检测技术领域,具体而言,涉及一种二分类模型训练方法、基于企业对的同名人员分类方法、装置、计算机可读存储介质及电子设备。
背景技术
自然人人名消歧是企业信息分析中的难题。在工商公开信息中,对于企业的相关人员,官方披露仅包含人员姓名,不包含人员的唯一身份识别代码,因此当两家企业同时出现两个相同的人名时,难以判断两人是否为同一人。
传统方法中解决人名消歧一般依赖人为设定策略进行关系判断,判断的准确性受限于人工策略的完备程度。同时,由于企业信息的复杂性,人工策略难以深入利用企业的多维度信息,导致结果准确率较低。
发明内容
鉴于此,本发明提出了一种二分类模型训练方法、基于企业对的同名人员分类方法、装置、计算机可读存储介质及电子设备,以解决现有技术中两家企业同时出现两个相同的人名时难以判断是否为同一个人的问题。
第一方面,本发明实施例提供了一种二分类模型训练方法,所述方法包括:获取带正负标签的企业对;其中,所述企业对由同名人员名下的两个企业组成,所述正负标签基于所述企业对是否属于同一个自然人划分得到;从企业关联关系数据库的嵌入向量中,提取所述带正负标签的企业对中每个企业的嵌入向量,形成企业对的嵌入向量对;将所述企业对的嵌入向量对输入到初始的二分类模型进行标签类别预测,得到企业对的预测标签;根据企业对的所带正负标签和所述预测标签计算评价指标值,并通过所述评价指标值确定初始的所述二分类模型的阈值,得到最终的二分类模型。
进一步地,所述通过所述评价指标值确定初始的所述二分类模型的阈值,包括:从初始的所述二分类模型的阈值范围中,选取所述评价指标值最高时所对应的阈值;其中,初始的所述二分类模型的阈值范围通过计算所有带正或负标签的企业对的嵌入向量对中两个嵌入向量的余弦相似度得到。
进一步地,所述企业关联关系数据库的嵌入向量,预先采用如下方法得到:以企业关联关系数据库中每个企业为节点、以每个企业之间的所有关联关系信息的权重之和为边,生成企业关联关系同构图;或以企业关联关系数据库中每个企业以及每个企业之间的关联关键词为节点,以每个企业之间的关系以及每个企业与每个关联关键词之间的关系为边,生成企业关联关系异构图;其中,每个关联关键词的所有边的权重之和均相同;对所述企业关联关系同构图或企业关联关系异构图进行采样,得到每个企业的采样序列;采用预设的自然语言处理模型对所述每个企业的采样序列进行训练处理,得到每个企业的嵌入向量。
进一步地,所述对所述企业关联关系同构图或企业关联关系异构图进行采样,得到每个企业的采样序列,包括:以所述企业关联关系同构图或企业关联关系异构图中每个节点为起点,沿着边进行随机游走,直至途径k个节点,得到每个企业的游走序列,其中k为正整数。
进一步地,当一个节点具有多个边时,所述沿着边进行随机游走,包括:根据每条边的权重,确定沿着每条边进行随机游走的概率。
进一步地,所述采用预设的自然语言处理模型对所述每个企业的采样序列进行训练处理,得到每个企业的嵌入向量,包括:采用预设的word2vec自然语言处理模型对所述每个企业的采样序列进行训练处理,得到每个企业的嵌入向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南天眼查科技有限公司,未经河南天眼查科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210459127.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种PCB板短槽孔钻孔工艺
- 下一篇:一种地下室顶板排水系统及施工工艺