[发明专利]一种关键词提取方法、提取装置、介质和电子设备在审

专利信息
申请号: 201711183233.X 申请日: 2017-11-23
公开(公告)号: CN108009149A 公开(公告)日: 2018-05-08
发明(设计)人: 刘嘉伟;崔朝辉;赵立军;张霞 申请(专利权)人: 东软集团股份有限公司
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 北京工信联合知识产权代理有限公司 11266 代理人: 郭一斐;叶万东
地址: 110179 辽宁省沈*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 关键词 提取 方法 装置 介质 电子设备
【说明书】:

发明一种关键词提取方法,包括如下步骤:从待分析文本中获取中心词;根据预设的滑动窗口大小建立模型,获取所述中心词在所述待分析文本中的上下文词;所述上下文词构成一个Huffman树的叶节点,获取每个上下文词的Huffman编码;计算所述每个上下文词在Huffman树中的概率;将所述中心词的每个上下文词的概率相乘,得到所述中心词的关键词权重;遍历待分析文本中的每个词作为中心词,执行上述步骤,分别获取各个中心词的关键词权重;将所述待分析文本中的各个中心词按关键词权重大小排序输出。本发明在神经网络的基础上,利用其特性能够进行相似词语维度上的关键词提取,取得了优异的提取关键词效果。

技术领域

本发明涉及通信技术领域,尤其涉及一种关键词提取方法和提取装置。

背景技术

关键词Keyword即关键性的词语。从本质上来讲,关键词是描述文章本质的词语,在信息检索领域,通过关键词来区别不同文章,如在信息搜索领域的百度即是通过关键词来进行搜索。而在自然语言处理领域,关键词常用来提取文章的本质意思,或者进一步来对长文本进行自动摘要来提取中心思想,是自然语言处理领域的关键性技术。

现在的关键词提取技术主要是利用机器学习的有监督的提取和无监督的提取。有监督的提取需要对人工标注的待分析文本进行训练,人工预处理的代价较高。而无监督的抽取算法直接利用需要提取关键词的文本即可进行关键词的提取,因此适用性较强。关键词的无监督提取主要分为三大类:基于统计特征的TF-IDF、基于词图模型的TextRank和基于主题模型的LDA。

LDA最主要的假设是词袋Bag of Words假设,指通过交换文章内词的顺序而不影响模型训练的结果,模型结果与词的顺序无关。很显然,如果不考虑词的顺序将丧失很多语义层面的意义,比如「谢霆锋是谁的儿子」和「谢霆锋的儿子是谁」两句话词袋基本相同但语义层面的含义完全不同。TF-IDF作为关键词提取的经典算法,虽然速度很快,但是仅从词频角度挖掘信息,并不能体现文本的深层语义信息。TextRank基本思想来自PageRank,本质是找「重要性传递」。但是由于其没有TF-IDF里考虑整个语料库的思想,仅考虑文档内部的结构信息时,导致一些在各个文档的出现频率均较高且不属于停止词的词语最终的得分较高,最后的结果也不理想。

发明内容

为了能够更多的在考虑文本语义层面含义的基础上进行关键词提取,本发明的实施例提供了一种关键词提取方法和提取装置。

根据本发明的一个方面,提供一种关键词提取方法,具体包括如下步骤:

步骤S110,从待分析文本中获取中心词;

步骤S120,根据预设的滑动窗口大小建立模型,获取所述中心词在所述待分析文本中的上下文词;

步骤S130,所述上下文词构成一个Huffman树的叶节点,获取每个上下文词的Huffman编码;

步骤S140,计算所述每个上下文词在Huffman树中的概率;

步骤S150,将所述中心词的每个上下文词的概率相乘,得到所述中心词的关键词权重;

步骤S160,遍历待分析文本中的每个词作为中心词,执行所述步骤S110-S150,分别获取各个中心词的关键词权重;

步骤S170,将关键词权重超过阈值的中心词确定为要提取的关键词。

进一步的,所述步骤S110之前还包括:从语料中利用Word2Vec技术训练词向量。

进一步的,所述步骤S120还包括,根据业务需求调整所述滑动窗口的大小。

进一步的,所述步骤S140之前,还包括获取所述中心词的词向量。

进一步的,所述步骤S140中,计算一个上下文词在Huffman树中的概率具体包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711183233.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top