[发明专利]一种基于预训练模型的政务文件归属省份分类方法在审
申请号: | 202111470389.2 | 申请日: | 2021-12-03 |
公开(公告)号: | CN114153803A | 公开(公告)日: | 2022-03-08 |
发明(设计)人: | 沈超;朱皓宬;周亚东;刘晓明 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F16/16 | 分类号: | G06F16/16;G06F40/295;G06N3/04;G06N3/08 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 段俊涛 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 训练 模型 政务 文件 归属 省份 分类 方法 | ||
1.一种基于预训练模型的政务文件归属省份分类方法,所述政务文件为csv和/或excel文件,其特征在于,分类方法包括以下步骤:
步骤1:对政务文件,从文件名、表头、行属性、列属性以及表格全文五个维度进行特征提取,生成对应的特征字典;
步骤2:利用预训练模型中的自编码器将特征字典中的文本数据生成语义信息的嵌入向量,捕捉字与字之间的语义贡献关系,并由预训练模型Bert的内置函数提供字与字的位置嵌入信息;将语义信息与位置嵌入信息整合,生成特征字典中文本数据的句向量;
步骤3:利用对比文件2得到的句向量,训练得到地区命名实体识别模型model1;
步骤4:利用步骤3训练好的地区命名实体识别模型model1,提取出所有特征字典中的地区,并依据中国行政区规划表将之打上对应的省份标签,进行地区-省份映射的训练,得到地区-省份映射模型model2;
步骤5:利用model1、model2,对新的excel、csv文件进行省份标签分类。
2.根据权利要求1所述基于预训练模型的政务文件归属省份分类方法,其特征在于,所述步骤1包括:
步骤1.1:将csv文件中的表格表示为具有五个键值对的字典,字典的五个键分别为name_chineseall,heading,row_attribute,column_attribute和allcsv_chinese,其中name_chineseall表示原文件名中的全部中文,heading表示原文件中的表头,row_attribute表示原文件表格中的全部行属性,column_attribute表示原文件表格中的全部列属性,allcsv_chinese表示原文件中的全部中文内容;
步骤1.2:对excel文件,根据其中所包含的sheet数量n,先生成n个临时csv文件,然后依据步骤1.1中的方法,对所有临时csv文件分别生成一个特征字典,将得到的n个特征字典按照键将对应的值全部连结起来,生成一个总的特征字典,该总的特征字典即为该excel文件所对应的特征字典;
步骤1.3:将所有政务文件和与其对应的特征字典按照索引顺序存入json文件中。
3.根据权利要求2所述基于预训练模型的政务文件归属省份分类方法,其特征在于,所述步骤2包括:
步骤2.1:对每个特征字典中五个键所对应的值进行分字,并对分完字后的文本数据t随机生成15%的mask数据,在文本数据的开头和结尾处增加表示句子开始和结束的标识符,通过被mask的字符两侧的未被mask的字符来预测被mask的字符,而用来预测被mask的字符的不包含位置信息的中间向量即为被mask的字符的语义信息嵌入向量,即不包含位置信息的嵌入向量;
步骤2.2:步骤2.1处理完的五个键所对应的值,对每个字符的位置生成位置索引嵌入信息,并与步骤2.1生成的语义信息嵌入向量整合,最终分别生成五个键所对应的值的句向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111470389.2/1.html,转载请声明来源钻瓜专利网。