[发明专利]一种基于名称高效核对不同系统中的电力设备的方法及装置在审
申请号: | 201811346562.6 | 申请日: | 2018-11-13 |
公开(公告)号: | CN109582790A | 公开(公告)日: | 2019-04-05 |
发明(设计)人: | 林镇锋;赵铭;易文峰;杨育;杨正刚;李小芬;徐文娟 | 申请(专利权)人: | 深圳市康拓普信息技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/27;G06K9/62 |
代理公司: | 深圳市顺天达专利商标代理有限公司 44217 | 代理人: | 郭伟刚 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电力设备 核对 参考 词向量 相似度 停用词 向量化 分词 预设 匹配 工作量 分类 | ||
本发明公开了一种基于名称高效核对不同系统中的电力设备的方法及装置,所述方法包括:将电力设备进行分类;获取同一类中的每一个电力设备在不同系统中的设备名称,并对每一个设备名称进行分词和去停用词处理得到对应的参考词;向量化每一个所述参考词得到对应的参考词向量;计算一个所述参考词和其他的所述参考词向量的相似度;将相似度大于预设阈值的两个以上的参考词向量进行匹配。如此,利用设备名称的相似度来对不同系统中的电力设备进行核对,大大提高了核对效率,降低了人工核对的工作量,而且核对的准确性与现有的方式相比也有很大幅度的提升。
技术领域
本发明涉及自然语言处理领域,具体涉及,更具体而言,涉及一种基于名称高效核对不同系统中的电力设备的方法装置。
背景技术
在电网行业中存在多个用于不同领域的系统,而不同领域的系统通常会用到同一个电力设备,但由于历史原因,不同领域的系统在录入电力设备的名称时,没有统一的规范,导致同一个电力设备在不同领域的系统中的名称出现不一致的情况。这使得技术员在对一个电力设备在不同领域的系统的数据进行核对时,需要先通过一套制定好的人工识别规则来确认该电力设备在不同领域的系统中的名称,而整个电网系统包含的电力设备的数量级是上亿级别的,通过人工来完成名称核对后在进行数据核对这一过程需要耗费大量的时间,而且容易出错。
发明内容
本发明要解决的技术问题在于,针对现有技术的缺点,提供一种基于名称高效核对不同系统中的电力设备的方法及装置。
为解决上述技术问题,本发明提供一种基于名称高效核对不同系统中的电力设备的方法,包括以下步骤:
将电力设备进行分类;
获取同一类中的每一个电力设备在不同系统中的设备名称,并对每一个设备名称进行分词和去停用词处理得到对应的参考词;
向量化每一个所述参考词得到对应的参考词向量;
计算一个所述参考词和其他的所述参考词向量的相似度;
将相似度大于预设阈值的两个以上的参考词向量进行匹配。
在本发明提供的基于名称高效核对不同系统中的电力设备的方法中,通过采用one-hot编码将所述参考词向量化所述参考词向量。
在本发明提供的基于名称高效核对不同系统中的电力设备的方法中,所述的对每一个设备名称进行分词和去停用词处理得到对应的参考词包括:将每一个设备名称进行分词,得到对应的切分词集合,过滤所述切分词集合中的停用词,从过滤停用词后的切分词集合中获取所述参考词。
在本发明提供的基于名称高效核对不同系统中的电力设备的方法中,所述的计算一个所述参考词和其他的所述参考词向量的相似度包括:
计算一个所述参考词和其他的所述参考词向量的夹角的余弦值;
通过余弦值计算一个所述参考词和其他的所述参考词向量的相似度。
相应的,本发明还提供一种基于名称高效核对不同系统中的电力设备的装置,包括:
分类单元,用于将电力设备进行分类;
获取单元,用于获取同一类中的每一个电力设备在不同系统中的设备名称,并对每一个设备名称进行分词和去停用词处理得到对应的参考词;
转换单元,用于向量化每一个所述参考词得到对应的参考词向量;
计算单元,用于计算一个所述参考词和其他的所述参考词向量的相似度;
匹配单元,用于将相似度大于预设阈值的两个以上的参考词向量进行匹配。
在本发明提供的基于名称高效核对不同系统中的电力设备的装置中,所述转换单元采用one-hot编码将所述参考词向量化所述参考词向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市康拓普信息技术有限公司,未经深圳市康拓普信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811346562.6/2.html,转载请声明来源钻瓜专利网。