[发明专利]基于短语向量的关键词抽取方法及系统有效
申请号: | 201910548261.X | 申请日: | 2019-06-24 |
公开(公告)号: | CN110263343B | 公开(公告)日: | 2021-06-15 |
发明(设计)人: | 孙新;赵永妍;申长虹;杨凯歌;张颖捷 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/205 |
代理公司: | 北京京万通知识产权代理有限公司 11440 | 代理人: | 许天易 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 短语 向量 关键词 抽取 方法 系统 | ||
本发明涉及自然语言处理和深度学习技术领域,特别涉及一种基于短语向量的关键词抽取方法及系统。本发明的主要技术方案包括:对原始文本分词并标注词性,根据词性保留n元组,得到候选词项集;对候选关键词集合中包含的大量短语构建向量表示;计算各候选词项的主题权重;以候选词项作为图中的顶点,以候选词项的共现信息为边构造图,以候选词项之间的语义相似度和共现信息计算边的权重,迭代计算每个候选词项的得分并排序。本发明提供的关键词抽取方法及系统,既引入了文档中的主题信息,又通过短语间的语义相似度引入了上下文信息,更能够捕捉全文中的重点词,语义精度高,应用范围广。
技术领域
本发明涉及自然语言处理和深度学习技术领域,特别涉及一种基于短语向量的关键词抽取方法及系统。
背景技术
近年来,海量数据在给人们带来极大便利的同时,也同样给数据的分析和查找带来了巨大挑战。在大数据背景下,如何从海量数据中快速地获取所需要的重点信息成为人们迫切需要解决的问题。关键词抽取是指通过算法自动地从文档中抽取重要的、具有主题性的词或短语。在科技文献中,关键词或短语可以帮助用户快速了解论文内容。同时,关键词或短语还可以用作信息检索、自然语言处理和文本挖掘中的搜索条目。在关键词抽取任务上,包含单词语义的词向量已经得到了应用并取得了良好的效果。然而,很多专业论文,包括企业论文中含有大量的专有名词,而且这些名词往往都不是单个词而是短语,因此仅用词向量不足以满足关键词抽取任务的需要,文本需要对短语构建向量表示。
当前已有学者提出以词向量为基础利用自编码器进行组合来构建短语向量。自编码器(Auto Encoder)在结构上只有编码器和解码器两个部分,以自编码器对单词向量进行组合来构建短语向量时,可以在编码器部分输入短语中各单词的表示,然后把它们压缩为一个中间隐藏层向量,在解码器部分通过隐藏层向量重新解析出输入的短语,那么这个中间向量就可以认为是包含了语义信息的短语向量表示。然而,在传统自编码器中,直接使用基础的全连接网络进行编码和解码,其中层与层之间是全连接的,每层之间的节点是无连接的,这种普通的自编码网络无法处理类似短语这样的结构中的序列信息。
此外,已有的算法只通过词向量来计算单词的语义相似度,而忽略了文本的主题信息。TextRank是一种基于图的关键词抽取算法,它的基本思想是用文档中的候选词项构成图,用候选词项在文档中的共现关系构造边,然后通过候选词项之间的相互投票来迭代计算权值,最后根据得分对候选词项进行排序来确定最终抽取的关键词。在传统的TextRank中,图中每个顶点的初始权重均为1(或1/n,n为顶点个数),每条边的权重也设为1,也就是说每个顶点的票数会均匀地投给与它相连的每个顶点。这样的方法虽然简单方便,但是既忽略了文档的主题性,又没有考虑顶点之间的语义关系。
在循环神经网络(Recurrent Neural Network,RNN)中,隐藏层之间的节点不再是无连接而是有连接的,并且隐藏层的输入不仅包含输入层的输出还包含上一时刻隐藏层的输出。因此RNN适合用来对序列数据进行编码。然而在RNN的传播过程中,历史信息的遗忘和误差的累积是一个重要问题,现在人们通常使用长短时记忆神经网络(Long Short-TermMemery,LSTM)来改进。
LSTM是一种RNN特殊类型,它使用细胞状态来记录信息,细胞状态在序列传输过程中只有少量的线性交互,可以较好的保留历史信息。然后LSTM使用门控机制来保护和控制细胞状态。门控机制是一个抽象的概念,在具体实现时它实际上是由一个sigmoid函数和点乘运算构成的,门控机制通过输出一个0到1之间的值来控制信息的传递,输出值越接近0表示允许通过的信息越少,越接近1表示允许通过的信息越多。
在一个LSTM单元中,首先要处理的是上一步传递过来的信息,LSTM通过遗忘门(forget gate)来控制历史信息的遗忘和保留。遗忘门ft根据当前信息,决定是否需要遗忘之前的信息,具体公式如下:
ft=σ(Wf·[ht-1,xt]+bf)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910548261.X/2.html,转载请声明来源钻瓜专利网。