[发明专利]基于自动摘要的文本分类方法、系统及计算机存储介质在审
申请号: | 202011138198.1 | 申请日: | 2020-10-22 |
公开(公告)号: | CN112307205A | 公开(公告)日: | 2021-02-02 |
发明(设计)人: | 张凯;齐军华;周建设;刘杰 | 申请(专利权)人: | 首都师范大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/34 |
代理公司: | 北京清控智云知识产权代理事务所(特殊普通合伙) 11919 | 代理人: | 管士涛 |
地址: | 100089 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 自动 摘要 文本 分类 方法 系统 计算机 存储 介质 | ||
本申请设计了自动摘要生成算法来实现电子文档核心思想(即文档摘要)的快速获取,并利用获取的摘要中的关键词来实现对该篇电子文档的准确标引分类,从而有效解决了人工标引所存在的效率低、易出错的问题,极大的提高了数据标引的效率。另外,本申请设计的自动摘要生成算法,在传统的概率统计方法的基础上充分考虑了领域内的知识,将领域词典运用到摘要算法当中,显著提高了自动摘要生成的效率及准确度。于是,本申请的数据标引方法能够实现数据自动标引的准确与高效的良好平衡。
技术领域
本申请涉及数据标引技术领域,具体而言,涉及一种基于自动摘要的文本分类方法、系统及计算机存储介质。
背景技术
文献标引是建立文献数据仓库的关键步骤,标引质量的优劣会直接影响后续的计算机检索效率。目前,每个文献库都有专职从事标引工作的标引人员,也即一般需要大量人员进行人工标引。但是,由于人工标引所存在的效率低,易出错的问题,目前的发展趋势是人工标引慢慢的向机器自动标引过渡。然而,现有技术中目前尚未有能够良好平衡准确与高效的文本分类技术。
因此,现有技术存在的上述问题亟待改进。
发明内容
为了解决上述人工标引速度慢、易出错的技术问题,本申请提供了一种基于自动摘要的文本分类方法、系统及计算机存储介质。
本申请的第一方面提供了一种基于自动摘要的文本分类方法,所述方法包括:
S1、处理器接收需要进行标引的电子文档数据;
S2、所述处理器对所述电子文档数据进行分词处理,并调动自动摘要生成算法生成对应的摘要;
S3、基于所述摘要中对应分词在所述电子文档中的词频对所述摘要中的分词进行排序,选择排序前N个的分词作为目标标引词;
S4、标引模块基于所述目标标引词对所述电子文档进行标引,从而实现文本分类。
优选地,所述步骤S2中的调动自动摘要生成算法生成对应的摘要,包括:
S21、提取单篇电子文档数据的所有词语并进行统计分析;
S22、根据词语的词频分布信息获取关键词集合,使用所述电子文档所属领域特征词词典和标题确定文本关键词的权重;
S23、计算文本中所有句子的初始权重,使用所述电子文档所属领域新词词典和篇章结构信息对文本中的句子的权重进行优化;
S24、根据句子的最终权重进行排序,筛选出权重较高的关键句集合,按原文的顺序输出摘要。
优选地,所述步骤S22,包括:遍历抽取的文本关键词集合,如果当前词存在于所述电子文档所属领域特征词词典中,则增加该关键词的权重;否则,就不增加该关键词的权重;
对标题进行切分,得到标题词集合,遍历抽取的文本关键词集合,如果当前词存在于标题词集合中,则增加该关键词的权重,否则,就不增加该关键词的权重。
优选地,步骤S23中对文本关键词权重进行优化的计算公式为:
P(W)=F(W)*log(S/Sf)*C(W)*T(W)
其中C(W)是所述电子文档所属领域特征词词典的优化因子,T(W)是标题的优化因子。
所述文本中所有句子的初始权重的计算方式为:
PS(Sj)=∑PW(Wji)/L(Sj)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于首都师范大学,未经首都师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011138198.1/2.html,转载请声明来源钻瓜专利网。