[发明专利]文本标注神经网络模型及其标注方法有效
| 申请号: | 202110653794.1 | 申请日: | 2021-06-11 |
| 公开(公告)号: | CN113486173B | 公开(公告)日: | 2023-09-12 |
| 发明(设计)人: | 邓松;李前亮;胡琦聪;袁玲玲;翟羽佳;岳东 | 申请(专利权)人: | 南京邮电大学 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F18/2411;G06F18/214;G06F18/25;G06N3/0464;G06N3/08 |
| 代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 罗运红 |
| 地址: | 210000*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 标注 神经网络 模型 及其 方法 | ||
本申请提供了一种文本标注神经网络模型及其标注方法,其技术要点是,所述模型至少包括文本标注处理器、文本质量评价器、文本标注数据融合器;所述文本标注处理器包括可参数化的滤波器,所述可参数化的滤波器配置为,将目标文本数据向量化并标注,以输出所述目标文本数据的第一特征向量;所述文本质量评价器配置为,输入所述第一特征向量,对所述第一特征向量进行深度学习后,输出验证后的第二特征向量,其中,所述第二特征向量包括评价信息的局部向量;所述文本标注数据融合器配置为,输入所述第二特征向量,并至少根据所述第二特征向量输出目标文本数据对应的最优标注向量,至少解决相关技术中过分依赖人工评价的标注质量问题。
技术领域
本申请涉及自然语言处理技术领域,具体而言,涉及一种文本标注神经网络模型及其标注方法。
背景技术
电力系统中包含海量文本数据,大量实用信息通过文本形式保存在信息管理系统中,存在海量电力领域专有名词需要标注。对于非/半结构化的文本信息处理,十分依赖自然语言处理技术。其中,深度学习(Deep Learning)是近年来一个十分热门的研究领域,该领域起源于二十世纪四十年代提出的“神经网络”模型。深度学习的本质是一种通用的特征学习方法,其核心思想是提取底层特征,组合高层的神经网络模型,以发现数据的分布规律。在二十世纪的人工智能和机器学习等领域的研究中,受计算能力的制约,神经网络几乎无法被训练。随着计算机计算能力的提高,深度学习研究有了长足的发展,在图像处理、语音识别、自然语言处理等领域有了取得了突破性的研究成果。
NLP(Natural Language Processing,自然语言处理)是计算机科学领域以及人工智能领域的一个重要的研究方向,旨在设计算法使计算机像人一样理解和处理自然语言(如中文、英文等),实现人与计算机之间的有效沟通。自然语言处理任务包含中文分词、情感分析、句法分析、机器翻译等。自然语言处理流程可以大致分为五个步骤。第一步是获取材料。第二步是对语义材料的预处理包含文本清洗、文本标注等。第三步是文本词汇向量化,将文本词汇映射为计算机能理解的多维向量。第四步是模型训练,运用深度学习模型完成自然语言处理任务。第五步是模型评价,常用的评价指标包含准确率、召回率等。
文本标注是自然语言处理的基础环节,也是关键环节。文本标注越准确,标注的数据量越大,训练模型性效果就越好。文本标注的任务比较多,不同任务的质量标注特征各有不同,一份文本数据标注任务往往需要多名标注员合作完成。文本标注的质量直接决定了自然语言处理技术的实现效果。
现有的相关技术中,通常采用人工评价文本标注质量或简单的数据清洗代替文本标注的质量评估,其中人工评价即有专家阅读全部标注数据集或抽样部分标注数据集,对于不同标注员标注数据的融合,也十分依赖人工评价手动融合。此类方法存在人力成本极高、耗时较长的缺点。
针对相关技术中,如何解决电力领域文本质量评价过分依赖人工评价与如何有效融合不同标注员的文本标注数据,提高文本标注质量的问题,目前尚未有有效的解决办法。
发明内容
本申请实施例提供了一种文本标注神经网络模型及其标注方法,以至少解决相关技术中过分依赖人工评价的标注质量问题。
在本申请的一个实施例中,提出了一种文本标注神经网络模型,所述模型至少包括文本标注处理器、文本质量评价器、文本标注数据融合器;所述文本标注处理器包括可参数化的滤波器,所述可参数化的滤波器是对卷积滤波器的训练参数进行训练后得到的,所述可参数化的滤波器配置为,将目标文本数据向量化并标注,以输出所述目标文本数据的第一特征向量;所述文本质量评价器配置为,输入所述第一特征向量,对所述第一特征向量进行深度学习后,输出验证后的第二特征向量,其中,所述第二特征向量包括评价信息的局部向量;所述文本标注数据融合器配置为,输入所述第二特征向量,并至少根据所述第二特征向量输出目标文本数据对应的最优标注向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110653794.1/2.html,转载请声明来源钻瓜专利网。





