[发明专利]数据处理方法及系统在审
申请号: | 201710594692.0 | 申请日: | 2017-07-19 |
公开(公告)号: | CN107357916A | 公开(公告)日: | 2017-11-17 |
发明(设计)人: | 程浩;张快;柳超 | 申请(专利权)人: | 北京金堤科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 中科专利商标代理有限责任公司11021 | 代理人: | 吕雁葭 |
地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 系统 | ||
技术领域
本公开涉及数据处理领域,具体涉及一种数据处理方法及系统。
背景技术
由于企业相似度是进行个性推荐、企业聚类等算法操作的基础,因此在对企业信息进行数据挖掘时,经常需要度量两个企业之间的相似度。
在相关技术中,提供了一种度量企业间的相似度的方案,然而,在实现本公开实施例的过程中,发明人发现相关技术中至少存在以下缺陷:仅仅从单一维度层面度量企业间的相似度,导致相似度对度量结果的参考价值偏低。
发明内容
本公开的一个方面提供了一种数据处理方法,包括:获取第一对象的对象信息和第二对象的对象信息,其中,对象信息中至少包含对象的名称;利用预先设定的用于对对象的名称进行分词处理的分词模型分别对上述第一对象的名称和上述第二对象的名称进行分词处理,得到上述第一对象的第一对象关键词集合和上述第二对象的第二对象关键词集合;计算上述第一对象关键词集合与上述第二对象关键词集合的相似度,得到第一相似度计算结果;以及根据上述第一相似度计算结果,确定上述第一对象与上述第二对象的相似度。
可选地,对象信息中至少还包含对象的地理位置,其中:上述方法还包括:计算上述第一对象的地理位置与上述第二对象的地理位置的相似度,得到第二相似度计算结果;以及确定上述第一对象与上述第二对象的相似度包括:根据上述第一相似度计算结果和上述第二相似度计算结果,确定上述第一对象与上述第二对象的相似度。
可选地,在利用预先设定的用于对对象的名称进行分词处理的分词模型分别对上述第一对象的名称和上述第二对象的名称进行分词处理,得到上述第一对象的第一对象关键词集合和上述第二对象的第二对象关键词集合之前,上述方法还包括:滤除上述第一对象的名称中与地理位置相关的词语;以及滤除上述第二对象的名称中与地理位置相关的词语。
可选地,对象信息中至少还包含对象的登记注册类型,其中:上述方法还包括:计算上述第一对象的登记注册类型与上述第二对象的登记注册类型的相似度,得到第三相似度计算结果;以及确定上述第一对象与上述第二对象的相似度包括:根据上述第一相似度计算结果、上述第二相似度计算结果和上述第三相似度计算结果,确定上述第一对象与上述第二对象的相似度。
可选地,在利用预先设定的用于对对象的名称进行分词处理的分词模型分别对上述第一对象的名称和上述第二对象的名称进行分词处理,得到上述第一对象的第一对象关键词集合和上述第二对象的第二对象关键词集合之前,上述方法还包括:滤除上述第一对象的名称中与对象的登记注册类型相关的词语;以及滤除上述第二对象的名称中与对象的登记注册类型相关的词语。
可选地,对象信息中至少还包含对象的行业分类,其中:上述方法还包括:计算上述第一对象的行业分类与上述第二对象的行业分类的相似度,得到第四相似度计算结果;以及确定上述第一对象与上述第二对象的相似度包括:根据上述第一相似度计算结果、上述第二相似度计算结果、上述第三相似度计算结果和上述第四相似度计算结果,确定上述第一对象与上述第二对象的相似度。
可选地,根据上述第一相似度计算结果、上述第二相似度计算结果、上述第三相似度计算结果和上述第四相似度计算结果,确定上述第一对象与上述第二对象的相似度包括:分别给各相似度计算结果赋予对应的权重值;以及根据上述第一相似度计算结果、上述第二相似度计算结果、上述第三相似度计算结果和上述第四相似度计算结果,以及赋予给上述各相似度计算结果的权重值,确定上述第一对象与上述第二对象的相似度。
本公开的另一个方面提供了一种数据处理系统,包括:获取模块,用于获取第一对象的对象信息和第二对象的对象信息,其中,对象信息中至少包含对象的名称;处理模块,用于利用预先设定的用于对对象的名称进行分词处理的分词模型分别对上述第一对象的名称和上述第二对象的名称进行分词处理,得到上述第一对象的第一对象关键词集合和上述第二对象的第二对象关键词集合;第一计算模块,用于计算上述第一对象关键词集合与上述第二对象关键词集合的相似度,得到第一相似度计算结果;以及确定模块,用于根据上述第一相似度计算结果,确定上述第一对象与上述第二对象的相似度。
可选地,对象信息中至少还包含对象的地理位置,其中:上述系统还包括:第二计算模块,用于计算上述第一对象的地理位置与上述第二对象的地理位置的相似度,得到第二相似度计算结果;以及上述确定模块,还用于根据上述第一相似度计算结果和上述第二相似度计算结果,确定上述第一对象与上述第二对象的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金堤科技有限公司,未经北京金堤科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710594692.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种盒中盒结构的包装盒
- 下一篇:一种便于存放的防碰撞物流箱