[发明专利]一种适用于word文本的关键词提取方法有效
申请号: | 202010188511.6 | 申请日: | 2020-03-17 |
公开(公告)号: | CN111401040B | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 张校源;陈骁;马祥祥 | 申请(专利权)人: | 上海爱数信息技术股份有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/289;G06F16/35 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 杨宏泰 |
地址: | 201112 上海市闵行*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 适用于 word 文本 关键词 提取 方法 | ||
本发明涉及一种适用于word文本的关键词提取方法,包括以下步骤:S1:获取word文本并提取正文;S2:分别利用TFIDF算法和TextRank算法提取设定个数的关键词;S3:获取文本名称和文本标题,并进行分词;S4:构建文本特征向量,并输入训练完成的关键词提取模型;S5:利用关键词提取模型,对通过TextRank算法提取的关键词再次提取,得到最终关键词集合,完成文本关键词的提取,与现有技术相比,本发明具有准确率和召回率高等优点。
技术领域
本发明涉及文本分析领域,尤其是涉及一种适用于word文本的关键词提取方法。
背景技术
关键词提取是信息检索、文本分类聚类以及自动文摘生成等技术的关键,是快速获取文档主题的重要手段。传统上将关键词定义为一组能够概括文档主题内容的词或短语。关键词在很多领域都有非常重要的应用,如文档的自动摘要、网页信息抽取、文档的分类聚类、搜索引擎等。然而,在大多情况下的文本并没有直接给出关键词,因此需要设计出关键词提取方法。
在文本分析领域,提取文本关键词的技术主要包括:TextRank算法、TFIDF算法和LDA主题模型。
(1)TextRank算法
TextRank算法是从PageRank算法演变而来,利用TextTank算法提取关键词时,不是每个词都有连接,而是设置一个窗口后,窗口里的词才有了连接,利用得分计算公式对每个词的得分进行计算统计,得到最高分词的n个词即为关键词,得分计算公式为:
其中,WS(Vi)表示Vi这个词的权重值(textrank值);Vi表示词i;d为阻尼系数,通常取0.85;ω表示为i和j词之间的边,也就是两个词之间的权重;In(Vi)表示可以连接到Vi这个词的集合;Out(Vj)表示可以连接到Vj词的集合;i表示词i;j表示词j,为i前面的词;k为除词i和词j以外的其他词k。公式表明:TextRank算法中一个单词i的权重取决于与在i前面的各个点j组成的(j,i)这条边的权重,以及j这个点到其他其他边的权重之和。
(2)TFIDF算法
TFIDF算法是一种基于统计的计算方法,其计算公式为:
tfidfi,j=tfi,j×idfi
其中,tfi,j为词频,idfi为逆文档频率,ni,j表示一个词的个数在文章中出现的次数;D表示文档集总数;i表示词i;j表示词j。
该式统计了词频(TF)和逆文档频率(IDF),TFIDF值常用于表示在一个文档集中某一份文档词的重要程度,也可以称这个文档的特征词或关键词。词频(TF)是指一个词在一篇文章中的频率,逆文档频率(IDF)是指一个词所在的文件集的总数除以包含这个词的文档数加一的值的log值。一个词的TFIDF值越大表示这个词在一篇文章中的频率越高,并且在文件集的其他文章中出现的次数越低,越能够代表这篇文章的特征或关键性。
(3)LDA算法
LDA算法假设文档中主题的先验分布和主题中词的先验分布都服从狄利克雷分布。根据贝叶斯学派的方法,通过先验的狄利克雷分布和观测数据得到的多项式分布,得到一组Dirichlet-multi共轭,并据此来推断文档中主题的后验分布和主题中词的后验分布,也就是我们最后需要的结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海爱数信息技术股份有限公司,未经上海爱数信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010188511.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种标准比对方法
- 下一篇:一种图片文件的清理方法及其装置