[发明专利]一种基于改进TopicRank算法的文本关键词抽取方法在审
申请号: | 202010743694.3 | 申请日: | 2020-07-29 |
公开(公告)号: | CN111859961A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 廖盛斌;郑章雄 | 申请(专利权)人: | 华中师范大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F16/35 |
代理公司: | 武汉东喻专利代理事务所(普通合伙) 42224 | 代理人: | 雷霄 |
地址: | 430079 *** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 改进 topicrank 算法 文本 关键词 抽取 方法 | ||
本发明公开了一种基于改进TopicRank算法的文本关键词抽取方法,包括步骤:对文本进行预处理,从预处理后的文本中抽取候选关键词,并对候选关键词进行向量化,然后对向量化后的候选关键词进行聚类生成主题;构建图模型,利用图模型获取每个主题的分值。其中,图模型的顶点代表主题,图模型的边代表构成边的两个顶点所表示主题间的语义关系,边对应的分值权重由主题包含的候选关键词的相对位置、绝对位置和长度确定;从高到低选取分值最高的n个主题,n为预先定义的正整数,从选取的n个主题包含的候选关键词中选取最终文本关键词。本发明能够有效改进TopicRank算法抽取关键词的效果,提高抽取关键词的准确率。
技术领域
本发明属于文本处理技术领域,更具体地,涉及一种基于改进TopicRank算法的文本关键词抽取方法。
背景技术
文本关键词代表了文本的主要概念和关键性内容,是理解文本内容最简洁和最快速的方法。文本关键词抽取,也称关键词提取或关键词标注,是从文本中把与该文本所要表达的意义最相关的一些词或短语抽取出来的一种自动化技术。关键词抽取在图书馆学、情报学、自然语言处理等领域有重要的实际应用价值。
现有的关键词抽取方法可以分为两类:有监督机器学习方法和无监督机器学习方法。
基于有监督学习的关键词抽取方法的一般步骤是:首先,建立一个包含大量文本和人工标注的对应关键词的训练数据集;然后,利用建立好的训练数据集对构造的关键词抽取算法进行训练得到一个模型;最后,应用训练好的模型对新文本进行关键词抽取。有监督机器学习的关键词抽取算法常借助决策树(DT)、朴素贝叶斯(NB)、支持向量机(SVM)、最大熵模型(ME)、隐Markov模型(HMM)、条件随机场(CRF)等机器学习模型。
在有监督的关键词抽取方法当中,训练数据集的质量会直接影响到模型的准确性,从而影响着关键词抽取的效果。具体有两方面的原因,一方面,现已标注关键词的文本有限,训练集要自己去标注会花费大量的人力物力,工作量十分巨大,而且人工标注关键词不可避免地带有一定的人为主观判断,会造成实验数据的不一致性影响模型训练的效果。另一方面,在一个领域训练的关键词抽取模型往往很难直接应用于另一个领域或者在应用于其他领域时效果会大幅下降,比如在规范性的论文数据集上训练出的模型就很难直接应用于随意性较大的互联网文本。因此,如何获取一个高质量的文本关键词抽取的训练集合,并且使训练出来的关键词抽取模型在不同的领域之间具有很好的迁移性是有监督算法的难点所在。
与有监督的关键词抽取算法不同,无监督的关键词抽取学习任务,不需要人工标注的训练语料,而是一般通过各种无监督学习算法对候选关键词排名的手段来实现,因此可以避免有监督学习算法的一些问题。无监督的关键词抽取任务一般步骤如下:首先,根据一些事先人为设定的规则提取出文本的候选关键词,如由名词或形容词构成的词组;然后,根据一些指标或方法对这些候选关键词进行排序来确定这些候选关键词的重要性;最后,选择排序前n个词或短语作为最终抽取出来的关键词来代表文章内容。
相对于有监督方法而言,无监督的关键词抽取方法是近年来关键词抽取研究和应用的热点,其经常采用的技术手段包括:基于统计的方法、基于主题的方法、基于网络图的方法等。
基于统计的方法利用的是文本的统计特征来进行关键词抽取,例如文本中关键词词频等。在基于统计的方法中比较著名的一个方法是TF-IDF算法,TF(“Term Frequency”的缩写)代表文章中某一个候选关键词出现的频率,如果一个候选关键词出现的频率越高,则它的TF值越大。IDF(“Inverse Document Frequency”的缩写)表示一个候选关键词的常见程度,候选关键词在文档中越常见则它的IDF值越低。TF-IDF算法的主要思想是如果某个候选关键词在一篇文章中出现的频率即TF值高,并且在其他文章中很少出现,即IDF值同样也高,那么这一个候选关键词对这篇文章就具有很好的代表性,能够作为代表文章内容的一个关键词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中师范大学,未经华中师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010743694.3/2.html,转载请声明来源钻瓜专利网。