[发明专利]一种基于规则和改进预训练模型的命名实体识别方法在审
申请号: | 202110229580.1 | 申请日: | 2021-03-02 |
公开(公告)号: | CN112818694A | 公开(公告)日: | 2021-05-18 |
发明(设计)人: | 杨良怀;裴慧 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/211;G06F40/44;G06N3/04;G06N3/08 |
代理公司: | 杭州浙科专利事务所(普通合伙) 33213 | 代理人: | 周红芳 |
地址: | 310006 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 规则 改进 训练 模型 命名 实体 识别 方法 | ||
本发明公开了一种基于规则和改进预训练模型的命名实体识别方法。本发明在BERT预训练的基础之上,增加与下游任务相同的领域数据继续预训练,再在命名实体识别任务上进行微调;同时,考虑到词性能够表达重要词语的属性信息,还在BERT模型内部结构中添加额外特征信息来增强系统的识别性能;在深度学习模型构建方面,提出集成卷积神经网络和双向循环神经网络对文本进行句子级别的特征提取,最后结合规则对模型识别出的实体结果进行校正,判断实体长度是否小于一定值,且前面是形容词,则拼接成一个新的实体作为最后的实体词;能提高命名实体识别的准确率,有效地提取出纺织面料领域的专有名词,相较于现有的方法在准确率、召回率、F1值上有很大的提升。
技术领域
本发明涉及一种基于规则和改进预训练模型的命名实体识别方法,特别是针对纺织面料领域数据中的专有名词识别。本发明通过在BERT预训练的基础之上,增加与下游任务相同的领域数据继续预训练,然后在命名实体识别模型上进行训练;同时,考虑到词性能够表达重要词语的属性信息,本文还在BERT模型内部结构中添加额外特征信息来增强系统的识别性能。在深度学习模型方面,还提出集成卷积神经网络(CNN)和双向循环神经网络(BiLSTM)的方法对文本进行句子级别的特征提取。最后,结合基于规则的方法对命名实体识别模型识别出的实体词进行验证,依据实体词长度、词性等语义层面的信息对识别错误的实体词进行纠正,从而提高命名实体识别的准确率。
背景技术
在跨模态检索任务中,用户可通过输入的任意类型的查询数据,检索出所有类型语义相关的数据集,如2019年中国绍兴柯桥国际纺织品面辅料博览会展出了45万款面料,需要从大量面料图样和丰富的图样文本描述中有效筛选出客户要求的结果。用户可利用文字信息来搜索图像信息,如何将用户输入的文本信息抽取出专有领域相关的词,再从数据库中进行匹配搜索返回给用户请求,这是命名实体识别任务的典型应用。
从命名实体识别方法来说大致有三种:第一种是基于规则匹配的实体识别方法,主要依赖于人工构造大量规则来匹配文本的实体词,但是该方法十分依赖于领域专家对知识的理解。第二种是基于机器学习的实体识别方法,即就是将实体识别任务转成分类问题来解决,并不需要人工制定规则,而是利用人工标注好的语料训练出一个模型,再使用训练好的模型对测试语料进行序列解码得到实体名称。第三种是基于深度学习的实体识别方法,随着硬件设备性能的提升,这类命名实体识别算法逐渐占据主流,不需要人为设计特征,只需要将输入文本处理成计算机所能识别的特征向量,模型就能自动挖掘出更深层的语义特征,且具有良好的泛化能力。
当前,关于纺织领域里的专有名词抽取的研究甚少,主要是因为缺乏高质量的训练数据,同时该领域的文本具有很强的专业性,例如,“化学纤维”、“人造丝”这类带有修饰词的实体,是无法从通用领域的实体识别任务中进行迁移的,使得对这类实体的识别工作比通用实体识别任务更具挑战性。为了能提高跨模态检索任务的有效性和精确性,提升专有名词的识别率是非常必要的,尽管在工业界已有很多人提出传统方法即很好完成领域词的识别,但是传统方法的时间代价和人力代价十分大的,所以自动化的实体识别算法研究在纺织领域领域有很好的应用前景。
因此,如何有效的提取纺织面料领域文本中的专有名词,快速、准确的实现跨模态检索任务变得举足轻重,也成为技术人员迫切解决的问题。
发明内容
考虑到大部分语言模型是在大型通用的语料库中预训练得出,且在领域化的特定场景会受到限制的问题,本发明提出一种基于规则和改进预训练模型的命名实体识别方法,它是一种新型的预训练语言模型方法(ConBERT),将预训练模型引入到纺织领域的命名实体识别任务中,同时还考虑到词性更能够表达专有名词的重要属性信息,本发明还提出一个创新的想法,在BERT结构中添加词性特征,将字特征和词性特征相结合,增强系统的识别率。最后使用双向循环神经网络(BiLSTM)和条件随机场(CRF)作为命名实体识别模型,可以有效地提取出纺织面料领域的专有名词,相较于现有的方法在准确率、召回率、F1值上有很大的提升。
本发明提供的技术方案为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110229580.1/2.html,转载请声明来源钻瓜专利网。