[发明专利]一种基于主动学习的电力预案文本标注方法在审
申请号: | 202010891711.8 | 申请日: | 2020-08-28 |
公开(公告)号: | CN112232063A | 公开(公告)日: | 2021-01-15 |
发明(设计)人: | 杨群;袁鑫;刘绍翰 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F40/289;G06K9/62;G06N3/04;G06N3/08;G06Q50/06 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 211106 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 主动 学习 电力 预案 文本 标注 方法 | ||
1.一种基于主动学习的电力预案文本标注方法,其特征在于,所述主动学习方法包括:
对获取到的电力预案文本进行预聚类;
从聚类后的数据中选择出待标注的样本;
将神经网络模型对数据的预测结果进行结构化输出。
2.根据权利要求1所述的基于主动学习的电力预案文本标注方法,其特征在于,针对电力预案文本数据的预聚类技术,具体包括:
通过专家人工整理,挑选出电力领域专有词汇,建立电力预案数据专属词典;
根据专属词典生成文本数据的特征向量;
将特征向量作为聚类算法的输入,进行聚类。
3.根据权利要求1所述的基于主动学习的电力预案文本标注方法,其特征在于,针对电力预案文本的主动学习的样本迭代策略,具体包括:
依照词袋最大化的标准,在聚类后得到的各簇中等比例的抽样选择出最初的种子集;
迭代时,结合样本的信息性和代表性挑选出可交予人工标注的数据以构成训练集;
当样本的信息性不再有显著变化或训练集达到一定数量时停止迭代。
4.根据权利要求1所述的基于主动学习的电力预案文本标注方法,其特征在于,针对电力预案文本序列标注的的神经网络预测结果结构化输出方法,具体包括:
神经网络输出文本中每个词的预测标签和对应的所有标签的概率;
将一条预案文本处理成多行文本,每行由原文的一个词、预测标签和所有标签的预测概率三部分组成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010891711.8/1.html,转载请声明来源钻瓜专利网。