[发明专利]主题特征文本关键词提取方法在审
| 申请号: | 201810516408.2 | 申请日: | 2018-05-25 |
| 公开(公告)号: | CN108763213A | 公开(公告)日: | 2018-11-06 |
| 发明(设计)人: | 彭易锦;代翔;黄细凤;王侃;杨拓 | 申请(专利权)人: | 西南电子技术研究所(中国电子科技集团公司第十研究所) |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
| 代理公司: | 成飞(集团)公司专利中心 51121 | 代理人: | 郭纯武 |
| 地址: | 610036 四川*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 词语 文本关键词 预处理 词频 逆文档频率 测试文本 概率矩阵 权值计算 训练阶段 主题分布 主题特征 归一化 排序 全局 关键词提取 归一化处理 测试阶段 统计测试 训练文本 主题模型 停用词 词性 分词 过滤 文本 输出 统计 学习 | ||
本发明公开了一种主题特征文本关键词提取方法,利用本发明可得到优于传统TF‑IDF方法的文本关键词提取结果。本发明通过下述技术方案予以实现:训练阶段对训练文本进行分词、去停用词、词性过滤等预处理,统计词语的逆文档频率,同时利用主题模型方法学习得到词语的主题概率矩阵并进行归一化处理,根据词语主题概率矩阵计算词语的主题分布熵,结合逆文档频率和主题分布熵计算词语的全局权值,全局权值计算结果输出到测试阶段,对测试文本进行预处理后,统计测试文本中的词语的归一化词频,将归一化词频与训练阶段得到的全局权值计算结果相结合,计算词语的综合得分并进行排序,以得分排序中得分最高的若干个词语作为当前测试文本的自动关键词提取结果。
技术领域
本发明属于自然语言处理技术领域,具体涉及一种基于词语的主题分布特征的文本关键词提取方法。
背景技术
关键词提取是信息检索、文本分类聚类以及自动文摘生成等技术的关键,是快速获取文档主题的重要手段。传统上将关键词定义为一组能够概括文档主题内容的词或短语。关键词表征了文档的主题性和关键性的内容,是表达一篇文本核心内容的最小单元。关键词在很多领域都有非常重要的应用,如文档的自动摘要、网页信息抽取、文档的分类聚类、搜索引擎等。然而,在大多情况下的文本并没有直接给出关键词,因此需要设计出关键词提取方法。关键词提取的目的是从文本中提出能够反映其主要内容和含义的特征词,典型的文本关键词提取方法是将文本的特征词提取出来后,根据某种规则计算各特征词的权重,按照特征词的权重确定能够反映文本主题内容的关键词。由于互联网资源时刻都在不断更新,中文文本呈现出爆炸式增长,采用人工方式进行关键词提取的方法耗时较长,且具有一定的主观性,因此,需要研究能够自动从文档中提取关键词的方法。关键词提取也称关键词抽取或关键词标注,是从文本中把与该文本所表达的思想最相关的一些词或短语提取出来的过程,自动关键词提取是识别或标注文档中具有这种作用的代表性的词或短语的自动化技术。一直以来文本的自动关键词提取都是自然语言处理领域的一个关键问题和研究热点。随着当前对文本数据应用需求的不断增加,近年来提出的自动关键词提取方法有很多种,有些方法在特定领域的关键词提取中取得了较好的效果,然而独立于语言和领域的通用自动关键词提取方法还需要进一步研究。目前,有些关键词提取系统是基于单一方法实现的,有些是多种方法的综合,按所采用的核心方法,可归纳为以下几种典型的最具代表性的方法:
1)基于主题词表的方法。基于主题词表的方法是在特定领域内建立主题词表,通过该词表结合词长词频等因素计算词的权重。这类方法受到背景词库的限制,导致了关键词提取不够全面。
2)基于词义的方法。基于词义的方法采用规则库或同义词词典对词进行词义标注,然后对其进行多义排歧,通过排歧结果计算词的权重。这类方法直接受到用户所建立的规则库性能的影响,此外由于需要进行词义排歧和同义词识别的工作,导致提取效率较低。
3)基于统计的方法。基于统计的方法是目前运用最为广泛的方法。利用文档中词语的统计信息抽取文档的关键词,通过计算词的某些特征,如TF、DF、TF-IDF、信息熵,结合其位置特征,如标题、段首等,为词分配权重,根据权重大小顺序提取关键词。这种方法相对来说比较简单,一般不需要训练数据和外部知识库,可以利用简单的统计规则,比如词性过滤、词频等进行筛选,得到候选关键词集合,利用某种统计量对候选关键词进行评估,实现关键词提取。基于统计的方法的不足之处在于计算量大;提取结果会有意义不完整的字符串,导致准确率不高;低频词不能被提取出来;需要大量的原始文本。
4)基于主题模型的方法,主题模型是模拟人类写作的概率语言模型,一篇文档是由多个主题混合而成的,而每个主题都是词汇上的概率分布。文档中词的主题特征越明显,其代表某一主题的能力就越强。利用主题模型方法来计算词语的主题权重,得到词语-主题矩阵,然后选择每个主题下权重最高的若干个词作为该主题的关键词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南电子技术研究所(中国电子科技集团公司第十研究所),未经西南电子技术研究所(中国电子科技集团公司第十研究所)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810516408.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种地址信息提取方法及装置
- 下一篇:一种针对商品评论的情感词典自动构建方法





