[发明专利]一种基于预训练模型的政务文件归属省份分类方法在审
申请号: | 202111470389.2 | 申请日: | 2021-12-03 |
公开(公告)号: | CN114153803A | 公开(公告)日: | 2022-03-08 |
发明(设计)人: | 沈超;朱皓宬;周亚东;刘晓明 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F16/16 | 分类号: | G06F16/16;G06F40/295;G06N3/04;G06N3/08 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 段俊涛 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 训练 模型 政务 文件 归属 省份 分类 方法 | ||
本发明一种基于预训练模型的政务文件归属省份分类方法,步骤为:1)从csv和excel文件中提取特征字典;2)对特征字典中全部文本生成句向量;3)对句向量进行地区实体识别训练,得到地区命名实体识别模型;4)进行地区‑省份映射训练,得到地区‑省份映射模型。本发明所提出的基于预训练模型政务类csv、excel文件归属省份的分类方法能够有效地对政务类csv、excel文件进行中国省份文件分类,并有效的避免了同一文件内部的省份重叠问题,预测结果准确率高、误差小,计算复杂度低,有很高的实用价值。
技术领域
本发明属于人工智能技术领域,特别涉及一种基于预训练模型的政务文件归属省份分类方法。
背景技术
文本分类用电脑对文本集(或其他实体或物件)按照一定的分类体系或标准进行自动分类标记。它根据一个已经被标注的训练文档集合,找到文档特征和文档类别之间的关系模型,然后利用这种学习得到的关系模型对新的文档进行类别判断。文本分类从基于知识的方法逐渐转变为基于统计和机器学习的方法。
文本分类一般包括了文本的表达、分类器的选择与训练、分类结果的评价与反馈等过程,其中文本的表达又可细分为文本预处理、索引和统计、特征抽取等步骤文本分类问题与其它分类问题没有本质上的区别,其方法可以归结为根据待分类数据的某些特征来进行匹配,当然完全的匹配是不太可能的,因此必须(根据某种评价标准)选择最优的匹配结果,从而完成分类。
后来兴起过一段时间的知识工程的方法则借助于专业人员的帮助,为每个类别定义大量的推理规则,如果一篇文档能满足这些推理规则,则可以判定属于该类别。但这种方法的缺点仍然明显,例如分类的质量严重依赖于这些规则的好坏,也就是依赖于制定规则的“人”的好坏;再比如制定规则的人都是专家级别,人力成本大幅上升常常令人难以承受;而知识工程最致命的弱点是完全不具备可推广性,一个针对金融领域构建的分类系统,如果要扩充到医疗或社会保险等相关领域,则除了完全推倒重来以外没有其他办法,常常造成巨大的知识和资金浪费。
发明内容
为了克服上述现有技术的缺点,针对政务文件省份标签分类问题,本发明的目的在于提供一种基于预训练模型的政务文件归属省份分类方法,能够对政务类csv、excel文件所归属的省份进行分类,并有效避免了同一文件内部的省份重叠问题。
为了实现上述目的,本发明采用的技术方案是:
一种基于预训练模型的政务文件归属省份分类方法,所述政务文件为csv和/或excel文件,分类方法包括以下步骤:
步骤1:对政务文件,从文件名、表头、行属性、列属性以及表格全文五个维度进行特征提取,生成对应的特征字典;
步骤2:利用预训练模型中的自编码器将特征字典中的文本数据生成语义信息的嵌入向量,捕捉字与字之间的语义贡献关系,并由预训练模型Bert的内置函数提供字与字的位置嵌入信息;将语义信息与位置嵌入信息整合,生成特征字典中文本数据的句向量;
步骤3:利用对比文件2得到的句向量,训练得到地区命名实体识别模型model1;
步骤4:利用步骤3训练好的地区命名实体识别模型model1,提取出所有特征字典中的地区,并依据中国行政区规划表将之打上对应的省份标签,进行地区-省份映射的训练,得到地区-省份映射模型model2;
步骤5:利用model1、model2,对新的excel、csv文件进行省份标签分类。
在一个实施例中,所述步骤1包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111470389.2/2.html,转载请声明来源钻瓜专利网。