[发明专利]一种基于中文分词的数据碰撞方法及系统有效

申请号：	201910835288.7	申请日：	2019-09-05
公开（公告）号：	CN110532569B	公开（公告）日：	2023-03-28
发明（设计）人：	张华;闫中玉;王澎湃	申请（专利权）人：	浪潮软件股份有限公司
主分类号：	G06F40/289	分类号：	G06F40/289;G06F40/216;G06F40/247;G06F16/33;G06F18/22
代理公司：	济南信达专利事务所有限公司 37100	代理人：	孙园园
地址：	271000 山东省***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于中文分词的数据碰撞方法及系统，属于机器学习领域，本发明要解决的技术问题为如何能够简单高效的处理自然语言文本相似性，满足大数据场景下的时效性需求，采用的技术方案为：①该方法步骤如下：S1、数据预处理，将待碰撞的数据存入内存或HDFS；S2、待碰撞的数据使用Lucene存在内存或者直接用ES存储在分布式计算引擎Spark上遍历待碰撞数据；S3、针对每一条数据，从Lucene或ES预搜索近似数据，针对每一条数据，从Lucene或ES；S4、对待碰撞的数据和搜索得到的结果进行中文分词；S5、计算相似性评分；S6、输出碰撞结果。②该系统包括，存储模块、计算模块、近似数据预搜索模块、中文分词模块、相似性评分模块及碰撞结果输出模块。
搜索关键词：	一种基于中文分词数据碰撞方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于中文分词的数据碰撞方法，其特征在于，该方法是利用中文分词算法，把要对比的两个实体名称进行中文分词，对比两个实体名称相同的分词个数，根据分词个数计算相似度；具体步骤如下：/nS1、数据预处理，将待碰撞的数据存入内存或HDFS；/nS2、待碰撞的数据使用Lucene存在内存或者直接用ES存储在分布式计算引擎Spark上遍历待碰撞数据；/nS3、针对每一条数据，从Lucene或ES预搜索近似数据，针对每一条数据，从Lucene或ES；/nS4、对待碰撞的数据和搜索得到的结果进行中文分词；/nS5、计算相似性评分：根据配置的选项，将相似性比较算法和外部规则应用于待碰撞的数据和搜索得到的结果，排除文本中的干扰信息，计算两者的相似性，得到相似性评分；/nS6、输出碰撞结果：根据相似性评分及设置的阈值，得出最终的相似性，输出碰撞结果。/n

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浪潮软件股份有限公司，未经浪潮软件股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910835288.7/，转载请声明来源钻瓜专利网。

上一篇：基于树特征选择和迁移学习的汉语词义消歧方法
下一篇：一种命名实体识别的方法和装置及模型训练的方法和装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于中文分词的数据碰撞方法及系统有效

专利文献下载