[发明专利]电力数据伦理知识图谱构建方法和系统在审
申请号: | 202211327205.1 | 申请日: | 2022-10-27 |
公开(公告)号: | CN115545196A | 公开(公告)日: | 2022-12-30 |
发明(设计)人: | 陈曦;辛锐;李士林;吴军英;姜丹;王新颖;常永娟;张鹏飞;贺月;张博;彭姣;卢艳艳;刘汝坤;李涛 | 申请(专利权)人: | 国网河北省电力有限公司信息通信分公司;华北电力大学(保定);国家电网有限公司 |
主分类号: | G06N5/02 | 分类号: | G06N5/02;G06F40/279;G06F16/35;G06F16/36;G06F21/60 |
代理公司: | 石家庄国为知识产权事务所 13120 | 代理人: | 付晓娣 |
地址: | 050000 河北*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电力 数据 伦理 知识 图谱 构建 方法 系统 | ||
本申请适用于知识图谱技术领域,提供了一种电力数据伦理知识图谱构建方法和系统,该方法包括:获取多模态的电力数据,电力数据包括非结构化数据,非结构化数据包括第一文本数据,第一文本数据包括数据伦理的政策文件和法律法规;基于实体识别模型对非结构化数据进行实体抽取,获得候选实体集,候选实体集包括多个候选实体;对候选实体集中的每个候选实体进行实体对齐,获得实体集,实体集中的每个实体为知识图谱的一个节点。本申请可以规避电力数据的隐私泄露问题和数据安全问题,使电力数据合理、高效、规范的服务于人们生产和生活。
技术领域
本申请属于知识图谱技术领域,尤其涉及电力数据伦理知识图谱构建方法和系统。
背景技术
电力数据涉及电力的生产、传输、分配、调度以及使用等全部环节,服务对象包括企业和个人,具有实时性强、准确性高的特点。电力数据的量级已经达到PB级,海量的电力大数据资源产生巨大的社会价值的同时,也带来极大的数据伦理风险。因此,需要在符合法律、法规、数据安全及数据伦理的框架下,发挥电力数据的积极作用。
目前,对大数据使用的数据伦理规范以法律、法规、白皮书等文本形式出现,而这些文件中,并未明确具体地描述对数据伦理约束的方法,在实际操作过程中的执行尺度也不一致。
因此,亟需一种针对电力数据的伦理知识图谱构建方法和系统,规避电力数据的隐私泄露和数据安全问题,使电力数据合理、高效、规范的服务于人们生产和生活。
发明内容
为克服相关技术中存在的问题,本申请实施例提供了电力数据伦理知识图谱构建方法及系统,用于规避电力数据的隐私泄露和数据安全问题,使电力数据合理、高效、规范的服务于人们生产和生活。
本申请是通过如下技术方案实现的:
第一方面,本申请实施例提供了一种电力数据伦理知识图谱构建方法,应用于电力数据中台,包括:获取多模态的电力数据,电力数据包括非结构化数据,非结构化数据包括第一文本数据,第一文本数据包括数据伦理的政策文件和法律法规;基于实体识别模型对非结构化数据进行实体抽取,获得候选实体集,候选实体集包括多个候选实体;对候选实体集中的每个候选实体进行实体对齐,获得实体集,实体集中的每个实体为知识图谱的一个节点。
在第一方面的一种可能的实现方式中,电力数据还包括结构化数据和半结构化数据,非结构化数据还包括音频数据、图片数据和视频数据。获取多模态的电力数据,具体包括:基于电力数据中台获取电力业务系统上的结构化数据,结构化数据包括电力营销系统数据库表、电力生产系统数据库表以及电力物资系统数据库表。采用爬虫技术获取网络上数据伦理的半结构化数据,基于电力数据中台获取电力数据中台的系统日志文件的半结构化数据。通过收集数据伦理的政策文件和法律法规,获得第一文本数据的非结构化数据,通过采集电力客服和电力用户的通话录音,获得音频数据的非结构化数据,通过采集电力用户在电力数据中台上的图片记录,获得图片数据的非结构化数据,通过采集电力用户在电力数据中台上的视频记录,获得视频数据的非结构化数据。
在第一方面的一种可能的实现方式中,方法还包括基于多模态的电力数据,构建电力数据伦理知识的本体库。构建电力数据伦理知识的本体库,包括:基于电力数据类型和预设电力数据伦理分类,构建多个电力数据伦理本体,电力数据伦理本体包括用电个人用户隐私、用电企业用户隐私、用电数据安全以及科研数据,预设电力数据伦理分类包括隐私泄露类和数据安全类;对多个电力数据伦理本体进行语义描述,构建电力数据伦理知识的本体库。
在第一方面的一种可能的实现方式中,在基于实体识别模型对非结构化数据进行实体抽取前,本申请技术方法还包括:采用语音识别技术将音频数据转换为第二文本数据;采用机器视觉技术识别图片数据中的第三文本数据和第一图像实体;采用语音识别技术和机器视觉技术识别视频数据中的敏感目标,获取第四文本数据和第二图像实体;采用结巴分词模型对第一文本数据、第二文本数据、第三文本数据和第四文本数据按照中文语法进行词语划分;构建三元组特征模板,三元组特征模板为实体、关系和实体的形式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网河北省电力有限公司信息通信分公司;华北电力大学(保定);国家电网有限公司,未经国网河北省电力有限公司信息通信分公司;华北电力大学(保定);国家电网有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211327205.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置