[发明专利]一种基于知识图谱技术的电力行业多源异构数据融合方法在审
申请号: | 202211545986.1 | 申请日: | 2022-11-29 |
公开(公告)号: | CN116050519A | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 熊小舟;徐滢;邱贞宇;罗坤;刘小康;鄂驰 | 申请(专利权)人: | 国网江西省电力有限公司信息通信分公司;国家电网有限公司 |
主分类号: | G06N5/022 | 分类号: | G06N5/022;G06N5/025;G06F40/284;G06F40/216 |
代理公司: | 北京众合诚成知识产权代理有限公司 11246 | 代理人: | 王焕巧 |
地址: | 330000 江西省南昌市*** | 国省代码: | 江西;36 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知识 图谱 技术 电力行业 多源异构 数据 融合 方法 | ||
1.一种基于知识图谱技术的电力行业多源异构数据融合方法,其特征在于:所述方法包括以下步骤:
S1:文本预处理
将来自行业外部纷繁复杂的数据转换为结构数据;
S2:文本信息提取
基于规则的关键信息提取编写规则匹配对象作为语料导入,启用序列标注抽取关键信息,通过输出的训练语料基于开源算法,进行知识图谱建模,通过模型判断剩余语料,若模型判断结果显示不达标,则返回补充语料,直到模型自动判断达标,跳出迭代,并将最近一次生成的模型作为最终模型;
S3:知识图谱构建
根据目标业务领域的行业知识,同时参照CIM,设计知识图谱的结构;
S4:通过文本预处理、文本信息提取以及知识图谱构建来对电力系统内外的数据进行融合。
2.根据权利要求1所述的一种基于知识图谱技术的电力行业多源异构数据融合方法,其特征在于:步骤S1中,所述文本预处理包括以下步骤:
S1.1:中文分词
待处理文本中的文字进行分词,划分为多个词段;
S 1.2:构建词向量模型
文本、视频转化为数字特征,将文本投影到数学维度空间,赋予文本信息对应的向量,表示文本信息。
3.根据权利要求2所述的一种基于知识图谱技术的电力行业多源异构数据融合方法,其特征在于:步骤S1.1中,中文分词采用基于序列标注的方法进行提取,包括以下步骤:
S1.1.1:注入语料,基于语料的词性和统计特征对所分词进行建模;
S1.1.2:利用模型描述分词的分布,预测出现的概率,输出分析结果。
4.根据权利要求1所述的一种基于知识图谱技术的电力行业多源异构数据融合方法,其特征在于:步骤S2中,所述文本信息提取包括以下步骤:
S2.1:基于规则的关键信息提取编写规则匹配对象,匹配对象作为语料导入;
S2.2:启用序列标注抽取关键信息,步骤S2.1输出的部分结果作为训练语料替代人工注入语料的过程;
S2.3:通过步骤S2.2输出的训练语料基于开源算法,进行知识图谱建模;
S2.4:通过步骤S2.3的模型对步骤S2.2中剩余的语料部分进行判断,若模型判断结果显示不达标,则返回步骤S2.1补充语料,直到模型自动判断达标,跳出迭代,并将最近一次生成的模型作为最终模型。
5.根据权利要求1-4任一项所述的一种基于知识图谱技术的电力行业多源异构数据融合方法,其特征在于:步骤S3中,所述知识图谱构建包括以下步骤:
S3.1:完成文本信息的提取,开始进行知识图谱的构建;
S3.2:根据目标业务领域的行业知识,同时参照CIM,设计知识图谱的结构;
S3.3:按照图谱结构,调用数据库的API将文本提取结果与实体关系数据匹配,完成知识图谱的创建。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网江西省电力有限公司信息通信分公司;国家电网有限公司,未经国网江西省电力有限公司信息通信分公司;国家电网有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211545986.1/1.html,转载请声明来源钻瓜专利网。