[发明专利]一种企业名称查重方法及装置、设备、介质在审
申请号: | 201911018999.1 | 申请日: | 2019-10-24 |
公开(公告)号: | CN110750509A | 公开(公告)日: | 2020-02-04 |
发明(设计)人: | 王章龙;张韬 | 申请(专利权)人: | 赛诺贝斯(北京)营销技术股份有限公司 |
主分类号: | G06F16/174 | 分类号: | G06F16/174;G06F40/289;G06Q30/02 |
代理公司: | 11577 北京知呱呱知识产权代理有限公司 | 代理人: | 盛明星 |
地址: | 100020 北京市朝阳区高碑店乡高井文*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 企业信息 词组 分词 机构类型 组织形式 技能要求 重复 经营 | ||
本发明实施例提供的一种企业名称查重方法及装置、设备、介质,该方法包括:获取企业信息,所述企业信息包括:企业名称;将所述企业名称拆分以地区、字号、经营范围、组织形式、机构类型为类别的分词词组;对所述分词词组,以地区、字号、经营范围、组织形式、机构类型中的一个或一个以上的组合作为查重依据,确定重复的企业信息,本发明实施例可以实现自动的分词词组的拆分,并且按照企业信息的格式对各个词组进行组合已确定重复的企业信息,能够降低对操作人员的技能要求,方便、快捷地对企业名称进行查重。
技术领域
本发明实施例涉及计算机技术领域,具体涉及一种企业名称查重方法及装置、设备、介质。
背景技术
在实际生产生活中,整理客户的企业数据,对企业做定向营销时发现,样本数据中存在大量重复的企业数据。智能数据查重系统是针对企业中文名称做查重操作。为在营销中降低营销用户企业反感,通过降低营销数据重复率,从而更精确的定位营销范围的投放,提高企业中文数据的精确性。
在成千上万的数据中,若使用人力查找重复数据是一件非常困难的事情。现有技术中一般采用以下几种方案进行查重:1、使用EXCEL的查重功能,去除完全相同的企业名称重复数据。2、使用SQL等数据库工具,去除完全相同的企业名称重复数据。3、使用查重工具,去除完全相同的企业名称重复数据。
现有技术有其缺点:1、需要操作人员掌握EXCEL、SQL、查重、分词等工具,对基础操作人员的技能要求高。2、要求操作人员懂得一定的查重方法,组合各个方法做查重。3、中间流程多,操作复杂。4、查重结果的重复率高,完全重复的数据可以去除,近似重复的不能查到。5、耗费资源多。若数据量大需要多人协作、重复确认,容易出错。
因此,如何提供一种企业名称查重方案,能够降低对操作人员的技能要求,方便、快捷地对企业名称进行查重,是本领域技术人员亟待解决的技术问题。
发明内容
为此,本发明实施例提供一种企业名称查重方法及装置、设备、介质,能够降低对操作人员的技能要求,方便、快捷地对企业名称进行查重。
为了实现上述目的,本发明实施例提供如下技术方案:
第一方面,本发明实施例提供一种企业信息查重方法,包括:
获取企业信息,所述企业信息包括:企业名称;
将所述企业名称拆分以地区、字号、经营范围、组织形式、机构类型为类别的分词词组;
对所述分词词组,以地区、字号、经营范围、组织形式、机构类型中的一个或一个以上的组合作为查重依据,确定重复的企业信息。
优选地,在所述获取企业信息之后;
在所述将所述企业名称拆分以地区、字号、经营范围、组织形式、机构类型为类别的分词词组之前,还包括:
将所述企业信息中的全角数据或半角数据转换为第一预设格式;
将所述企业信息中的阿拉伯数字或汉字数字转换为第二预设格式,得到格式统一的企业信息;
将所述企业信息中的汉字转为拼音,以便实现同音字查重;
将所述企业信息中的繁体字转简体字,以实现简繁体重复检查;
其中,所述第一预设格式为全角数据或半角数据;所述第二预设格式为阿拉伯数字或汉字数字。
优选地,所述地区,包括:国家、省份、城市、区县;
所述机构类型,包括:公司、事务所、部、厅、局、机构、处。
优选地,所述企业信息,还包括:与所述企业名称对应的联系人姓名、邮箱地址、电话号码、手机号码中的一个或一个以上的组合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于赛诺贝斯(北京)营销技术股份有限公司,未经赛诺贝斯(北京)营销技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911018999.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据存储方法与装置
- 下一篇:一种物联网数据处理系统及方法