[发明专利]面向继电保护的主题词识别方法、装置、存储器及设备在审
申请号: | 202210814281.9 | 申请日: | 2022-07-12 |
公开(公告)号: | CN115017318A | 公开(公告)日: | 2022-09-06 |
发明(设计)人: | 陈实;宋亮亮;庄舒仪;杨毅;范栋琛;孔祥平;林金娇;夏杰 | 申请(专利权)人: | 国网江苏省电力有限公司电力科学研究院 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62;G06F40/30;G06F40/216;G06N3/04;G06N3/08 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 张赏 |
地址: | 210000 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 保护 主题词 识别 方法 装置 存储器 设备 | ||
本发明公开了一种面向继电保护的主题词识别方法、装置、存储器及设备,该方法将继电保护知识文本切分成一系列的词,对所得到的词进行筛选得到候选词;对候选词进行评分,基于评分从候选词中抽取主题词;对抽取的主题词进行修正,得到继电保护主题词。本发明方法克服了传统人工提取主题词费时费力的问题,并且合理利用电力领域多年积累的大量无监督数据,通过机器学习的方法提高了结果的准确率。
技术领域
本发明涉及一种面向继电保护的主题词识别方法、装置、存储器及设备,属于电力系统继电保护技术领域。
背景技术
目前电力领域围绕电网智能运检、运行控制、企业管理和用电服务等领域开展人工智能自主创新,在输变电缺陷识别和故障诊断、现场作业安全智能管控、智慧客服、智能调度等方面已取得阶段性成果,但当前电力人工智能技术水平仍处于初级阶段,智能化应用较为零散,缺乏统一的平台化支撑,距离全面实用化仍有差距。而词是承载电力领域知识的最基本的语言单元,因此也是电力领域人工智能应用、人机交互中的基础资源。现有的继电保护技术资料多以文档与关系型数据的形式进行发布存储,缺少领域主题词的积累,如“继电保护”、“故障”、“定检”等等,对于后续电力系统开展人工智能应用产生了极大阻碍,高效准确地从继电保护技术资料中自动挖掘、识别主题词、自动检测新主题词也成为了助推电力领域人工智能应用的重要基础。
当前的主题词识别技术往往要通过人工方式不断标注添加词汇,费时费力。
发明内容
本发明的目的在于提供一种面向继电保护的主题词识别方法、装置、存储器及设备,从继电保护领域文本中识别主题词并构建主题词典,可以减少对识别结果进行校验的人工成本。
为达到上述目的,本发明采用的技术方案如下:
本发明第一方面提供一种面向继电保护的主题词识别方法,包括:
将继电保护知识文本切分成一系列的词,对所得到的词进行筛选得到候选词;
对所述候选词进行评分,基于评分从候选词中抽取主题词;
对抽取的主题词进行修正,得到继电保护主题词。
进一步的,所述将继电保护知识文本切分成一系列的词,包括:
采用汉语语言模型N-Gram对继电保护知识文本进行切分,得到一系列字串,一个子串为一个词。
进一步的,所述对所得到的词进行筛选得到候选词,包括:
同时满足以下四个条件时,词为候选词:
词的内凝聚度得分大于内凝聚度门槛值;
词的左、右邻词信息熵大于左、右邻词信息熵门槛值;
词的种子词包含大于种子词包含门槛值;
词的词长大于词长门槛值。
进一步的,所述词的内凝聚度得分计算如下:
其中,ScoreIC(X)表示词X的内凝聚度得分,xi是词X中的第i个字符,P(·)表示词在文本中出现的概率;
所述种子词包含计算为:预设短专业词作为种子词,词中包含种子词的个数为种子词包含;
所述词长为词的长度。
进一步的,所述内凝聚度门槛值的取值范围为50至200之间;所述左、右邻词信息熵取值为0.5;所述种子词包含门槛值取值为1;所述词长门槛值取值为2。
进一步的,对所述候选词进行评分,基于评分从候选词中抽取主题词,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网江苏省电力有限公司电力科学研究院,未经国网江苏省电力有限公司电力科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210814281.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于腿部康复护理的辅助装置
- 下一篇:一种用于园林草坪的修剪机