[发明专利]一种企业名称查重方法及装置、设备、介质在审
申请号: | 201911018999.1 | 申请日: | 2019-10-24 |
公开(公告)号: | CN110750509A | 公开(公告)日: | 2020-02-04 |
发明(设计)人: | 王章龙;张韬 | 申请(专利权)人: | 赛诺贝斯(北京)营销技术股份有限公司 |
主分类号: | G06F16/174 | 分类号: | G06F16/174;G06F40/289;G06Q30/02 |
代理公司: | 11577 北京知呱呱知识产权代理有限公司 | 代理人: | 盛明星 |
地址: | 100020 北京市朝阳区高碑店乡高井文*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 企业信息 词组 分词 机构类型 组织形式 技能要求 重复 经营 | ||
1.一种企业信息查重方法,其特征在于,包括:
获取企业信息,所述企业信息包括:企业名称;
将所述企业名称拆分以地区、字号、经营范围、组织形式、机构类型为类别的分词词组;
对所述分词词组,以地区、字号、经营范围、组织形式、机构类型中的一个或一个以上的组合作为查重依据,确定重复的企业信息。
2.根据权利要求1所述的企业信息查重方法,其特征在于,
在所述获取企业信息之后;
在所述将所述企业名称拆分以地区、字号、经营范围、组织形式、机构类型为类别的分词词组之前,还包括:
将所述企业信息中的全角数据或半角数据转换为第一预设格式;
将所述企业信息中的阿拉伯数字或汉字数字转换为第二预设格式,得到格式统一的企业信息;
将所述企业信息中的汉字转为拼音,以便实现同音字查重;
将所述企业信息中的繁体字转简体字,以实现简繁体重复检查;
其中,所述第一预设格式为全角数据或半角数据;所述第二预设格式为阿拉伯数字或汉字数字。
3.根据权利要求1所述的企业信息查重方法,其特征在于,
所述地区,包括:国家、省份、城市、区县;
所述机构类型,包括:公司、事务所、部、厅、局、机构、处。
4.根据权利要求1所述的企业信息查重方法,其特征在于,
所述企业信息,还包括:与所述企业名称对应的联系人姓名、邮箱地址、电话号码、手机号码中的一个或一个以上的组合;
相应地,所述查重方法还包括:
利用联系人姓名、邮箱地址、电话号码、手机号码中的一个或一个以上的组合作为查重依据,确定重复的企业信息。
5.根据权利要求1至4任一项所述的企业信息查重方法,其特征在于,
所述对所述分词词组,以地区、字号、经营范围、组织形式、机构类型中的一个或一个以上的组合作为查重依据,确定重复的企业信息,包括:
利用第一规则对所述分词词组进行查重,得到第一重复企业信息;
利用第二规则对所述分词词组进行查重,得到第二重复企业信息;
如果所述第一重复企业信息、所述第二重复企业信息中存在信息交叉的企业信息,则将所述第一重复企业信息、所述第二重复企业信息合并为第三重复企业信息;
其中,所述第一规则包括:地区、字号、经营范围、组织形式、机构类型中的一个或一个以上的组合;所述第二规则包括:地区、字号、经营范围、组织形式、机构类型中的一个或一个以上的组合;所述第一规则与所述第二规则不同。
6.根据权利要求5所述的企业信息查重方法,其特征在于,
所述如果所述第一重复企业信息、所述第二重复企业信息中存在信息交叉的企业信息,则将所述第一重复企业信息、所述第二重复企业信息合并为第三重复企业信息之后,还包括:
将所述第一规则、所述第二规则作为规则组模板存储,以便后续使用调用;
将所述企业信息中完全重复的数据只保留一份,得到企业查重结果数据,以便用户导出使用。
7.一种企业信息查重装置,其特征在于,包括:
企业信息获取模块,用于获取企业信息,所述企业信息包括:企业名称;
企业名称分词模块,用于将所述企业名称拆分以地区、字号、经营范围、组织形式、机构类型为类别的分词词组;
分词组合查重模块,用于对所述分词词组,以地区、字号、经营范围、组织形式、机构类型中的一个或一个以上的组合作为查重依据,确定重复的企业信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于赛诺贝斯(北京)营销技术股份有限公司,未经赛诺贝斯(北京)营销技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911018999.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据存储方法与装置
- 下一篇:一种物联网数据处理系统及方法