[发明专利]一种关联企业分析方法和系统在审
申请号: | 202110897169.1 | 申请日: | 2021-08-05 |
公开(公告)号: | CN113641787A | 公开(公告)日: | 2021-11-12 |
发明(设计)人: | 荆姝娟;张贝贝 | 申请(专利权)人: | 荆姝娟;西安麦仓数据服务有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/216;G06F40/289;G06Q10/10 |
代理公司: | 陕西天秦知一专利代理事务所(普通合伙) 61273 | 代理人: | 刘树涛 |
地址: | 710000 陕西省西安市高新区软*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 关联 企业 分析 方法 系统 | ||
本发明提供一种关联企业分析方法和系统,能够准确、快速的对关联企业进行计算划分,生成关联企业列表,同时在生成关联企业列表的过程中增加了区域选择,可以得到所分析企业同区域或某一区域的关联企业列表,包含以下步骤:数据集处理,建立分词词库,利用算法对关键词评分,建立企业关系图谱检索关联企业,对关联企业列表进行精细化评分处理,输出结果,关联企业列表。
技术领域
本发明涉及企业数据处理的技术领域,具体涉及一种关联企业分析方法和系统。
背景技术
近年来随着我国市场经济的逐步发展,在市场中涌现出大量中小型企业,现阶段企业分类方式是依据行业门类、从业人员、营业收入、资产总额等指标将企业进行划分,根据现代企业灵活高效的运作特点,现有的国民经济行业划分已不能实时准确的划分现有企业的业务领域,同时依据国民经济行业划分也无法快速全面的寻找出同等领域的关联企业。
有鉴于此,提出本发明。
发明内容:
本发明提供一种关联企业分析方法和系统,能够准确、快速的对关联企业进行计算划分,生成关联企业列表,同时在生成关联企业列表的过程中增加了区域选择,可以得到所分析企业同区域或某一区域的关联企业列表。
本发明保护的一种关联企业分析方法,包含以下步骤:
S1:数据集处理;
S2:建立分词词库;
S3:利用算法对关键词评分;
S4:建立企业关系图谱,检索关联企业;
S5:对关联企业列表进行精细化评分处理;
S6:输出结果,关联企业列表
进一步地,数据集处理包括收集企业的基本信息数据与招聘信息数据,通过将企业的基本信息数据与招聘数据以企业为基点进行合并形成数据集,数据集每两天更新一轮。
进一步地,所述步骤S2中建立分词词库包括分词处理和词表清洗;所述分词处理是对数据集中的企业简介和经营范围进行NLP分词算法处理,对每个企业数据形成自有的相关词表,所述词表清洗为过滤数字、标点、空格、区域以及招聘热词等无效词,同时推出停用词库,过滤掉不作为关键词的词组;最终将所有企业的词表进行统计整理,形成分词词库。
进一步地,所述步骤S3通过TF-IDF算法实现关键词评分,取关键词评分前n的关键词作为企业的关键词组,用以关系图谱数据集设计使用。
进一步地,所述步骤S4包括关系图谱数据集映射结构设计、关系图谱数据批量生成、利用图查询语言检索关联企业。
进一步地,所述步骤S5通过完善评分机制实现对关联企业列表进行精细化评分处理。
本发明还包括一种关联企业分析系统,包括:
处理模块,用于依次完成数据集处理、分词词库建立、关键词评分和关系图谱数据处理;
更新模块,用于新增企业数据和企业相关数据的更新;
计算模块,用于关系图谱检索,经过精细化处理后得出关联企业列表。
本发明的有益效果:通过对企业基本信息的数据整理,对企业的经营范围和企业简介进行分词并抽取关键词生成企业关键词词库,再通过关键词对于企业的重要程度进行评分,利用共用关键词的评分计算企业之间相似程度的评分,最终输出关联企业列表,从而解决了查找同等领域关联企业的问题,通过算法优化了关联企业的耦合程度,同时通过对数据集的优化更新有效的解决了相关企业信息更新带来的关联企业变化的问题。
附图说明:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于荆姝娟;西安麦仓数据服务有限公司,未经荆姝娟;西安麦仓数据服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110897169.1/2.html,转载请声明来源钻瓜专利网。