[发明专利]一种基于规则和改进预训练模型的命名实体识别方法在审
申请号: | 202110229580.1 | 申请日: | 2021-03-02 |
公开(公告)号: | CN112818694A | 公开(公告)日: | 2021-05-18 |
发明(设计)人: | 杨良怀;裴慧 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/211;G06F40/44;G06N3/04;G06N3/08 |
代理公司: | 杭州浙科专利事务所(普通合伙) 33213 | 代理人: | 周红芳 |
地址: | 310006 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 规则 改进 训练 模型 命名 实体 识别 方法 | ||
1.一种基于规则和改进预训练模型的命名实体识别方法,以BERT预训练模型为基础,增加与下游任务相同的领域数据继续预训练,接着在命名实体识别模型上进行训练,最后使用规则匹配算法对识别精度进行优化的过程,其特征在于具体包括以下步骤:
步骤1:在BERT预训练的基础之上,增加与下游任务相同的领域数据继续预训练,得出新的中文BERT预训练模型;
步骤2:基于词性更能够表达重要词语的属性信息,在步骤1)的中文BERT预训练模型内部结构中添加词性特征得到新的字向量,作为卷积神经网络CNN模型的输入特征,以增强系统的识别性能;
步骤3:使用卷积神经网络CNN模型对步骤2)得出的新的字向量进行卷积操作、用使用双向循环神经网络BiLSTM模型进行命名实体识别任务,最后引入CRF模型通过概率统计对BiLSTM的输出进行解码,获得序列标注预测结果;
步骤4:使用基于规则的方法对模型识别出的实体结果进行校正,对实体词长度小于阈值且依据该实体词的前一个词的词性来判断是否进行实体词的扩充,避免识别错误、漏识别等问题。
2.根据权利要求1所述的一种基于规则和改进预训练模型的命名实体识别方法,其中步骤1的具体过程为:
1)构造领域词典:从纺织领域网站、搜狗词典库等网站上搜集纺织面料关键词,并将收集到的关键词作为领域词典;
2)数据集准备:以步骤1)所得的领域词典为目标词,解析百度百科的html文件,提取出网页中相关文本数据;再对提取出的文本数据进行清洗和预处理,将关键词、摘要和内容信息合并成一个短文本,并去除文本中无用词和特殊符号,保留领域相关的文本数据,同时将所有的文本数据整理成一行一个句子的形式;
3)数据标注与划分:依据领域词典对步骤2)中保留的领域相关的文本数据先进行一轮数据预标注,再使用Brat标注工具对保留的纺织领域相关的文本数据中的专有名词进行第二轮人工标注,利用分词工具对文本进行切词、词性标注;最后将保留的纺织领域相关的文本数据处理成命名实体识别任务能处理的数据形式BIO,其中B表示实体词的开头,I表示实体词的其他位置,O表示不属于任何类型,最后按照7∶2∶1的比例将文本数据划分成为训练数据、验证数据和测试数据,至此数据准备完成;
4)BERT不断预训练的数据准备:为了提升模型的识别率,从多个纺织领域网站上抓取不断预训练的纺织领域文本数据,并对所述文本数据进行清洗和预处理,剔除与领域不相关的文本数据,将剩余的文本数据作为不断预训练的语料,加入步骤3)的纺织领域文本数据中,在BERT模型基础上再次预训练,得到最终领域强相关的中文预训练模,即为新的中文BERT预训练模型。
3.根据权利要求1所述的一种基于规则和改进预训练模型的命名实体识别方法,其特征在于步骤2的具体过程如下:
1)词性特征为一句话中每个字的词性信息,将词性特征引入步骤1的新的中文BERT预训练模型中,即在BERT结构中添加词性特征,将新的BERT预训练模型中的字特征和词性特征相结合,得到新特征Xnew,即为字向量,如式(2-1)所示:
Xnew=EmbeddingLookup(X)+PositionEncoding+PosEncoding (2-1)
X∈Rbatch_size*seq_len*embed_dim
其中,batch_size为每次送入网络中训练的一批次句子的个数;seq_len为一个句子的长度;embed_dim是新的BERT预训练模型中的字特征的维度;EmbeddingLookup(X)是查找字向量X的嵌入表示;PositionEncoding来区分句子中词的位置信息,在表示字向量时引入的位置编码;PosEncoding为词性编码,将句子中的词性信息转换成特征向量;
2)将步骤1)得出的新特征Xnew作为命名实体识别模型的输入。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110229580.1/1.html,转载请声明来源钻瓜专利网。