[发明专利]一种文本自动分类方法及系统在审
| 申请号: | 202210411343.1 | 申请日: | 2022-04-19 |
| 公开(公告)号: | CN114741512A | 公开(公告)日: | 2022-07-12 |
| 发明(设计)人: | 李晔;沈自强;白全民;王金颖 | 申请(专利权)人: | 山东省科技发展战略研究所 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 闫圣娟 |
| 地址: | 250014 山*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文本 自动 分类 方法 系统 | ||
本公开提供了一种文本自动分类方法及系统,利用大量无标注文本数据对BERT模型修正以适应文本特点,使其得到的词向量能够很好的包含文本领域内的信息,帮助模型进行语义理解;利用文本正文部分的关键信息,通过提取正文的关键子句并重排序,在融合标题信息后,放入构建好的BERT模型中进行文本的自动分类,辅助创新主体便捷地检索和配对适合自身需求的文本数据。
技术领域
本公开属于文本分类领域,具体涉及一种文本自动分类方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
文本是体现数据的重要载体,各种部门会根据其工作的增多或者科技创新书写大量的文件,然而,文本的数据量越来越大,对文本进行筛选、分析的人力成本也在激增。
通过分析发现,这些文本往往涉及类型众多,分布在不同的网站中,但是缺少高效的信息处理手段,相关人群在寻找自己相关类型文本时存在成本高、耗时久,甚至找不到的困难,影响检索的效果。因为需要通过预先对文本进行合理地设定分类标签,从而提高检索配对的效率,帮助各类主体人群找到与自身需求相关的文本信息。
但是在文本挖掘领域,许多新技术的应用仍处于探索阶段,并且由于文本的长短不一、信息密度大、分类体系不统一等特点,研究人员在借助信息技术手段对文本进行自动分类时会遇到困难,尚未形成得到广泛认可的技术方案。
目前在文本分类领域,许多新的自然语言处理技术还没有得到深入应用,如预训练语言模型。通过人工标注对文本进行归类的成本过高;传统的正则表达式进行分类减少了一定的人工成本却忽略了文本语义;采用word2vec训练词向量再结合神经网络语言模型模型进行分类,虽然在准确度上有了很大的提升,但是对文本语义的理解还不够充分,并且忽略了词的上下文关系。
发明内容
本公开为了解决上述问题,提出了一种文本自动分类方法及系统,本公开通过提取正文的关键子句并重排序,在融合标题信息后,放入构建好的BERT模型中进行文本的自动分类,辅助创新主体便捷地检索和配对适合自身需求的文本。
根据一些实施例,本公开采用如下技术方案:
一种文本自动分类方法,包括以下步骤:
获取待分类的文本数据,设置文本数据的分类准则并按照分类准则对文本数据进行标注;
读取待分类的文本数据,对文本数据正文信息进行预处理;
提取文本数据正文句子,计算正文句子的特征贡献值并提取关键子句,基于特征贡献值进行关键子句重排序;
将关键子句与文本数据标题进行融合作为特征文本数据,组成数据集并划分为训练集和验证集;
读取特征文本数据,将文本数据转化为特征向量,并记录到TFRecord格式文件中;
设置训练参数,读取TFRecord格式文件并将其转化为标准的模型输入,输入修正后的BERT模型中进行训练,输出分类结果。
根据另一一些实施例,本公开还采用如下技术方案:
信息获取模块,用于获取待分类的文本数据,设置文本数据的分类准则并按照分类准则对文本数据进行标注;
信息预处理模块,用于对文本数据正文信息进行预处理;
信息提取模块,用于提取文本数据正文句子,计算正文句子的特征贡献值并提取关键子句,基于特征贡献值进行关键子句重排序,并将关键子句与文本数据标题进行融合作为特征文本数据,
数据处理模块,用于读取文本特征数据,将文本数据转化为特征向量,并记录到TFRecord格式文件中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东省科技发展战略研究所,未经山东省科技发展战略研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210411343.1/2.html,转载请声明来源钻瓜专利网。





