[发明专利]短文本关键词提取方法及装置在审

申请号：	202011107170.1	申请日：	2020-10-16
公开（公告）号：	CN114386393A	公开（公告）日：	2022-04-22
发明（设计）人：	汪涛;张守菊;黄佳佳;戴永恒;刘学谦	申请（专利权）人：	电科云（北京）科技有限公司
主分类号：	G06F40/216	分类号：	G06F40/216;G06F40/284;G06F16/33;G06F16/35
代理公司：	北京金咨知识产权代理有限公司 11612	代理人：	秦景芳
地址：	100041 北京市石景山***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本关键词提取方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种短文本关键词提取方法及装置，其中，该方法包括：将待提取关键词文本和与其来源相关的文本进行拼接，得到长文本；利用设定主题模型对所述长文本进行主题分类，得到主题分类数据；基于所述主题分类数据计算考虑类别统计信息的单词重要性得分，得到所述待提取关键词文本的关键词。通过上述方案能够解决了短文本较短的问题和各领域文本差别较大所导致的数据集偏斜的问题，从而能够提高对短文本进行关键词提取的准确度。

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种短文本关键词提取方法及装置。

背景技术

近年来，微博因其平台的开放性和内容简洁性等特征而得到迅速发展，正成为人类社会中社会关系维系和信息传播的重要渠道和载体。人们可以利用微博实时分享数据，同时，由于微博内容可以通过各种通讯手段(如手机等)实时发布，所以容易在短时间内产生大量数据。但是，这些数据通常是杂乱无章的，很难及时准确地从中获取感兴趣的信息。因此，对微博文本的关键词进行提取显得格外重要。准确提取关键词，可以有效地识别出当天热点词汇以及高热度话题。

对微博文本进行关键词提取一直都是一个热点问题，但是微博文本数据本身的缺陷导致关键词的提取有一定的难度。首先，微博文本数据的噪声很大，因为微博内容书写比较随意，所以在微博中错别字、新生词、网络用语、符号语言等出现的频率比普通网络文本出现的频率要高很多。其次，一些常见的背景词汇(例如“明天”、“呵呵”等)在微博中的出现频率也极高，也会对文本挖掘任务造成了一定影响。再者，因为微博限制用户发表的博文字符数，例如不能超过140个字符，所以微博文本大部分都是发表的短文本或转发评论他人微博的短文本，而短文本对于提取关键词有很大影响。另外，转发评论他人微博的文本，不仅较短，而且多时候缺少重要信息，从而导致无法有效的识别出关键词。此外，微博文本涵盖领域丰富，同时各领域的占比相差很大，这一特点也严重影响了基于统计信息提取的关键词的准确率。

因此，对于类似于微博的具有噪声大、缺少重要信息、涵盖领域丰富但占比相差大等特点的短文本进行关键词提取的准确度亟待提高。

发明内容

有鉴于此，本发明提供了一种短文本关键词提取方法及装置，以提高短文本关键词提取的准确度。

为了达到上述目的，本发明采用以下方案实现：

根据本发明实施例的一个方面，提供了一种短文本关键词提取方法，包括：

将待提取关键词文本和与其来源相关的文本进行拼接，得到长文本；

利用设定主题模型对所述长文本进行主题分类，得到主题分类数据；

基于所述主题分类数据计算考虑类别统计信息的单词重要性得分，得到所述待提取关键词文本的关键词。

在一些实施例中，将待提取关键词文本和与其来源相关的文本进行拼接，得到长文本，包括：

将待提取关键词文本和其所来源的初始文本进行拼接，得到拼接后的文本；其中，所述的与其来源相关的文本包括所述的其所来源的初始文本；

将多个拼接后的文本按设定属性进行聚合，得到长文本。

在一些实施例中，所述设定属性为作者信息。