[发明专利]电力数据伦理知识图谱构建方法和系统在审
申请号: | 202211327205.1 | 申请日: | 2022-10-27 |
公开(公告)号: | CN115545196A | 公开(公告)日: | 2022-12-30 |
发明(设计)人: | 陈曦;辛锐;李士林;吴军英;姜丹;王新颖;常永娟;张鹏飞;贺月;张博;彭姣;卢艳艳;刘汝坤;李涛 | 申请(专利权)人: | 国网河北省电力有限公司信息通信分公司;华北电力大学(保定);国家电网有限公司 |
主分类号: | G06N5/02 | 分类号: | G06N5/02;G06F40/279;G06F16/35;G06F16/36;G06F21/60 |
代理公司: | 石家庄国为知识产权事务所 13120 | 代理人: | 付晓娣 |
地址: | 050000 河北*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电力 数据 伦理 知识 图谱 构建 方法 系统 | ||
1.一种电力数据伦理知识图谱构建方法,其特征在于,应用于电力数据中台,包括:
获取多模态的电力数据,所述电力数据包括非结构化数据,所述非结构化数据包括第一文本数据,所述第一文本数据包括数据伦理的政策文件和/或法律法规;
基于实体识别模型对所述非结构化数据进行实体抽取,获得候选实体集,所述候选实体集包括多个候选实体;
对所述候选实体集中的每个所述候选实体进行实体对齐,获得实体集,所述实体集中的每个实体为知识图谱的一个节点。
2.如权利要求1所述的电力数据伦理知识图谱构建方法,其特征在于,所述电力数据还包括结构化数据和半结构化数据,所述非结构化数据还包括音频数据、图片数据和视频数据;
所述获取多模态的电力数据,包括:
基于所述电力数据中台获取电力业务系统上的结构化数据,所述结构化数据包括电力营销系统数据库表、电力生产系统数据库表以及电力物资系统数据库表;
采用爬虫技术获取网络上数据伦理的半结构化数据,基于所述电力数据中台获取所述电力数据中台的系统日志文件的半结构化数据;
通过收集数据伦理的政策文件和/或法律法规,获得所述第一文本数据的非结构化数据,通过采集电力客服和电力用户的通话录音,获得所述音频数据的非结构化数据,通过采集电力用户在所述电力数据中台上的图片记录,获得所述图片数据的非结构化数据,通过采集电力用户在所述电力数据中台上的视频记录,获得所述视频数据的非结构化数据。
3.如权利要求1所述的电力数据伦理知识图谱构建方法,其特征在于,在所述获取多模态的电力数据后,所述方法还包括:基于多模态的电力数据,构建电力数据伦理知识的本体库;
所述构建电力数据伦理知识的本体库,包括:
基于电力数据类型和预设电力数据伦理分类,构建多个电力数据伦理本体,所述电力数据伦理本体包括用电个人用户隐私、用电企业用户隐私、用电数据安全以及科研数据,所述预设电力数据伦理分类包括隐私泄露类和数据安全类;
对多个所述电力数据伦理本体进行语义描述,构建所述电力数据伦理知识的本体库。
4.如权利要求2所述的电力数据伦理知识图谱构建方法,其特征在于,在所述基于实体识别模型对所述非结构化数据进行实体抽取前,所述方法还包括:
采用语音识别技术将所述音频数据转换为第二文本数据;
采用机器视觉技术识别所述图片数据中的第三文本数据和第一图像实体;
采用所述语音识别技术和所述机器视觉技术识别所述视频数据中的敏感目标,获取第四文本数据和第二图像实体;
采用结巴分词模型对所述第一文本数据、所述第二文本数据、所述第三文本数据和所述第四文本数据按照中文语法进行词语划分;
构建三元组特征模板,所述三元组特征模板为实体、关系和实体的形式。
5.如权利要求1所述的电力数据伦理知识图谱构建方法,其特征在于,所述对所述候选实体集中的每个所述候选实体进行实体对齐,包括:
采用word2vec算法分析每个所述候选实体,获得每个所述候选实体的语义向量;
采用余弦相似度公式或相对熵的方式,计算每个所述语义向量的相似度;
根据预设相似度阈值判定每个所述语义向量的相似度,将大于等于所述预设相似度阈值的所述候选实体进行实体对齐。
6.一种电力数据伦理知识图谱构建系统,其特征在于,应用于电力数据中台,包括:
数据获取模块,用于获取多模态的电力数据,所述电力数据包括非结构化数据,所述非结构化数据包括第一文本数据,所述第一文本数据包括数据伦理的政策文件和/或法律法规;
实体抽取模块,用于基于实体识别模型对所述结构化数据进行实体抽取,获得候选实体集,所述候选实体集包括多个候选实体;
实体对齐模块,用于对所述候选实体集中的每个多个候选实体进行实体对齐,获得实体集,所述实体集中的每个实体为知识图谱的一个节点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网河北省电力有限公司信息通信分公司;华北电力大学(保定);国家电网有限公司,未经国网河北省电力有限公司信息通信分公司;华北电力大学(保定);国家电网有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211327205.1/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置