[发明专利]基于自动摘要的文本分类方法、系统及计算机存储介质在审
申请号: | 202011138198.1 | 申请日: | 2020-10-22 |
公开(公告)号: | CN112307205A | 公开(公告)日: | 2021-02-02 |
发明(设计)人: | 张凯;齐军华;周建设;刘杰 | 申请(专利权)人: | 首都师范大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/34 |
代理公司: | 北京清控智云知识产权代理事务所(特殊普通合伙) 11919 | 代理人: | 管士涛 |
地址: | 100089 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 自动 摘要 文本 分类 方法 系统 计算机 存储 介质 | ||
1.一种基于自动摘要的文本分类方法,应用于电子设备,其特征在于:所述方法包括:
S1、处理器接收需要进行标引的电子文档数据;
S2、所述处理器对所述电子文档数据进行分词处理,并调动自动摘要生成算法生成对应的摘要;
S3、基于所述摘要中对应分词在所述电子文档中的词频对所述摘要中的分词进行排序,选择排序前N个的分词作为目标标引词;
S4、标引模块基于所述目标标引词对所述电子文档进行标引,从而实现文本分类。
2.根据权利要求1所述的方法,其特征在于:所述步骤S2中的调动自动摘要生成算法生成对应的摘要,包括:
S21、提取单篇电子文档数据的所有词语并进行统计分析;
S22、根据词语的词频分布信息获取关键词集合,使用所述电子文档所属领域特征词词典和标题确定文本关键词的权重;
S23、计算文本中所有句子的初始权重,使用所述电子文档所属领域新词词典和篇章结构信息对文本中的句子的权重进行优化;
S24、根据句子的最终权重进行排序,筛选出权重较高的关键句集合,按原文的顺序输出摘要。
3.根据权利要求2所述的方法,其特征在于:所述步骤S22,包括:遍历抽取的文本关键词集合,如果当前词存在于所述电子文档所属领域特征词词典中,则增加该关键词的权重;否则,就不增加该关键词的权重;
对标题进行切分,得到标题词集合,遍历抽取的文本关键词集合,如果当前词存在于标题词集合中,那么就增加该关键词的权重,否则,就不增加该关键词的权重。
4.根据权利要求2所述的方法,其特征在于:步骤S23中对文本关键词权重进行优化的计算公式为:
P(W)=F(W)*log(S/Sf)*C(W)*T(W)
其中C(W)是所述电子文档所属领域特征词词典的优化因子,T(W)是标题的优化因子;
所述文本中所有句子的初始权重的计算方式为:
PS(Sj)=∑PW(Wji)/L(Sj)
其中PS(Sj)为句子Sj的权重,∑PW(Wji)为句子Sj中关键词的权重之和,L(Sj)是句子Sj中包含的词条的个数。
5.根据权利要求1所述的方法,其特征在于:步骤S23中,所述使用所述电子文档所属领域新词词典和篇章结构信息对文本中的句子的权重进行优化,包括:对文本中的初始关键句子进行扫描,如果当前句子中包含新词,则给出现的新词赋予一定的权重,并将这些权重之和加到该句的权重中;对文本中首段末段所有句子,每段的段首句和段尾句进行加权。
6.根据权利要求1所述的方法,其特征在于:对所述句子的权重进行优化的计算公式为:
PS(Sj)=∑PW(Wji)/L(Sj)*N(Sj)*T(Sj)
其中N(Sj)表示所述电子文档所属领域新词词典的对加权因子,T(Sj)表示篇章结构的加权因子。
7.根据权利要求1所述的方法,其特征在于:所述步骤S4中标引模块基于所述目标标引词对所述电子文档进行标引,从而实现文本分类,包括:计算各目标标引词的组合特征向量,并计算与其最接近的标准点,抽取该标准点数据的分类号作为学科相似分类号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于首都师范大学,未经首都师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011138198.1/1.html,转载请声明来源钻瓜专利网。