[发明专利]中心词提取方法、装置、计算机设备和存储介质在审

申请号：	202210277310.2	申请日：	2022-03-17
公开（公告）号：	CN114661877A	公开（公告）日：	2022-06-24
发明（设计）人：	谭又伟;丁宁	申请（专利权）人：	广州荔支网络技术有限公司
主分类号：	G06F16/332	分类号：	G06F16/332;G06F16/35;G06F40/284;G06F40/289;G06F40/216
代理公司：	广州佳睿知识产权代理事务所(普通合伙) 44610	代理人：	李健富
地址：	510000 广东省广州***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	中心词提取方法装置计算机设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及中心词提取方法、装置、计算机设备和存储介质。在本发明实施例中，对查询文本进行分词处理确定目标分词；根据查询文本识别查询意图；基于相应意图类别的所有查询文本中目标分词的出现次数，相应意图类别所有查询文本的数量，以及所有查询文本中目标分词的出现次数确定目标分词于相应意图类别的权重；对查询文本中所有目标分词所对应的词向量进行加权求和，得到查询文本的向量表示；对目标分词进行词性标注处理，确定候选中心词；基于候选中心词的词向量与查询文本的向量表示的余弦相似度提取中心词。提升了查询中心词的抽取效果，解决了中心词的冷启动问题，同时还减弱了中心词的马太效应。

技术领域

本发明涉及信息处理技术领域，特别是涉及一种中心词提取方法、装置、计算机设备和存储介质。

背景技术

随着计算机技术的发展和查询引擎的广泛应用，用户对查询准确率的要求也越来越高。为了提高查询准确率，在根据用户输入的语句进行查询时可以从该语句中提取能准确表达语句含义的中心词，根据中心词进行查询，能够避免根据语句进行查询而导致查询结果较少的问题。

相关的技术有基于主题模型(Topic Model)，基于监督学习。其中基于主题模型(Topic Model)是以无监督学习的方式对文档的隐含语义结构进行聚类的统计模型，其中LDA(Latent Dirichlet Allocation)算法是主题模型的一种。LDA根据对词的共现信息的分析，拟合出词-文档-主题的分布，从而将词、query映射到一个语义空间中。其抽取中心词的步骤如下：

1)获取文档中的候选中心词；

2)根据从大规模语料学习得到的隐含主题模型，计算获取query和候选中心词的主题分布；

3)计算文档和候选关键词的主题相似度，排序并选取最高的几个作为关键词。

缺点：

抽取的关键词一般过于宽泛，不能较好反映文章主题；

存在关键词的冷启动问题和马太效应。

而基于监督学习是一种将关键词抽取当作分类问题，即对每个候选关键词判断是否为中心词的二分类问题。常用的分类算法LR、朴素贝叶斯、SVM、GBDT、神经网络等分类算法都可以使用。

缺点：

需要人工标注训练集合，费时费力，因此不适合网络上的大规模应用。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的中心词提取方法、装置、计算机设备和存储介质。

第一方面，本发明实施例提供了一种中心词提取方法，所述方法包括以下步骤：