[发明专利]一种基于深度学习的电力领域项目特征识别方法在审
申请号: | 202111193129.5 | 申请日: | 2021-10-13 |
公开(公告)号: | CN113869054A | 公开(公告)日: | 2021-12-31 |
发明(设计)人: | 贾博森;黄少远;张恒;王晓飞;张宇熙;彭国政;赵娟;朱克平;谢颖捷 | 申请(专利权)人: | 天津大学;国网经济技术研究院有限公司;国网浙江省电力有限公司经济技术研究院 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06F16/35;G06F40/151;G06Q10/10;G06Q50/06;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 济南光启专利代理事务所(普通合伙) 37292 | 代理人: | 张瑜 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 电力 领域 项目 特征 识别 方法 | ||
1.一种基于深度学习的电力领域项目特征识别方法,其特征在于,包括如下步骤:
S1,根据电力项目文档提炼电力领域的项目特征,基于项目特征建立项目业务标签体系;
S2,对电力项目文档进行文本预处理;
S3,借助文本标注工具对预处理后的电力项目文档进行实体标注,生成电力项目文档所对应的BIO格式数据集;
S4,利用ERNIE模型、Bi-GRU神经网络和CRF模型建立网络学习模型,将步骤S3得到的BIO格式数据集输入网络学习模型进行训练得到实体识别模型;
S5,利用实体识别模型对新的电力项目文档进行特征识别。
2.根据权利要求1所述的基于深度学习的电力领域项目特征识别方法,其特征在于,在步骤S1中,所述项目业务标签体系包括一级类别标签和二级实体标签,一级类别标签包括电网基建、产业基建、电网小型基建、生产技改、产业技改、生产辅助技改、零星购置、生产大修、产业大修、生产辅助大修、电力市场营销、电网数字化、研究开发、管理咨询、教育培训和股权投资,二级实体标签包括机构、电网信息化和金额。
3.根据权利要求1所述的基于深度学习的电力领域项目特征识别方法,其特征在于,在步骤S2中,所述文本预处理的方法为:利用格式转换工具将电力项目文档的PDF文件转换为EXCEL格式后,剔除包括空白页、目录、参考文献及附图的非关键信息,再将剔除后的文件转换为TXT文件。
4.根据权利要求1所述的基于深度学习的电力领域项目特征识别方法,其特征在于,在步骤S3中,所述BIO格式数据集包括语句和每行语句所对应的标签,所述标签包括通用标签、分隔符和标签具体类别,通用标签即BIO标注,B表示实体起始位置,I表示实体的非第一个字符,O表示非实体,标签具体类别与二级实体标签相对应,采用O代表机构,E代表电网信息化,M代表金额。
5.根据权利要求1所述的基于深度学习的电力领域项目特征识别方法,其特征在于,所述步骤S4包括如下步骤:
S4.1,将预处理后的BIO格式数据集分为训练集、验证集和测试集;
S4.2,利用ERNIE模型、Bi-GRU神经网络和CRF模型建立网络学习模型;
S4.3,设置验证准确率阈值和预测准确率阈值;
S4.4,利用训练集数据对网络学习模型进行训练得到实体识别模型;
S4.5,利用验证集数据对实体识别模型进行评估,若实体识别模型的识别准确率大于验证准确率,执行步骤S4.6,否则返回步骤S4.4;
S4.6,利用测试集数据对实体识别模型进行测试,若实体识别模型的准确率小于预测准确率阈值,返回步骤S4.4并对网络学习模型的超参数进行调整,否则执行步骤S5。
6.根据权利要求5所述的基于深度学习的电力领域项目特征识别方法,其特征在于,在步骤S4.2中,所述网络学习模型包括ERNIE模型、Bi-GRU神经网络和CRF模型,ERNIE模型的输入端与文本标注工具的输出端连接,ERNIE模型的输出端与Bi-GRU神经网络的输入端连接,Bi-GRU神经网络的输出端与CRF模型的输入端连接。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学;国网经济技术研究院有限公司;国网浙江省电力有限公司经济技术研究院,未经天津大学;国网经济技术研究院有限公司;国网浙江省电力有限公司经济技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111193129.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高端装备制造用车间除尘器
- 下一篇:一种垃圾发电厂照明供电系统