[发明专利]中心词提取方法、装置、计算机设备和存储介质在审
申请号: | 202210277310.2 | 申请日: | 2022-03-17 |
公开(公告)号: | CN114661877A | 公开(公告)日: | 2022-06-24 |
发明(设计)人: | 谭又伟;丁宁 | 申请(专利权)人: | 广州荔支网络技术有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/35;G06F40/284;G06F40/289;G06F40/216 |
代理公司: | 广州佳睿知识产权代理事务所(普通合伙) 44610 | 代理人: | 李健富 |
地址: | 510000 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中心词 提取 方法 装置 计算机 设备 存储 介质 | ||
本发明涉及中心词提取方法、装置、计算机设备和存储介质。在本发明实施例中,对查询文本进行分词处理确定目标分词;根据查询文本识别查询意图;基于相应意图类别的所有查询文本中目标分词的出现次数,相应意图类别所有查询文本的数量,以及所有查询文本中目标分词的出现次数确定目标分词于相应意图类别的权重;对查询文本中所有目标分词所对应的词向量进行加权求和,得到查询文本的向量表示;对目标分词进行词性标注处理,确定候选中心词;基于候选中心词的词向量与查询文本的向量表示的余弦相似度提取中心词。提升了查询中心词的抽取效果,解决了中心词的冷启动问题,同时还减弱了中心词的马太效应。
技术领域
本发明涉及信息处理技术领域,特别是涉及一种中心词提取方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展和查询引擎的广泛应用,用户对查询准确率的要求也越来越高。为了提高查询准确率,在根据用户输入的语句进行查询时可以从该语句中提取能准确表达语句含义的中心词,根据中心词进行查询,能够避免根据语句进行查询而导致查询结果较少的问题。
相关的技术有基于主题模型(Topic Model),基于监督学习。其中基于主题模型(Topic Model)是以无监督学习的方式对文档的隐含语义结构进行聚类的统计模型,其中LDA(Latent Dirichlet Allocation)算法是主题模型的一种。LDA根据对词的共现信息的分析,拟合出词-文档-主题的分布,从而将词、query映射到一个语义空间中。其抽取中心词的步骤如下:
1)获取文档中的候选中心词;
2)根据从大规模语料学习得到的隐含主题模型,计算获取query和候选中心词的主题分布;
3)计算文档和候选关键词的主题相似度,排序并选取最高的几个作为关键词。
缺点:
抽取的关键词一般过于宽泛,不能较好反映文章主题;
存在关键词的冷启动问题和马太效应。
而基于监督学习是一种将关键词抽取当作分类问题,即对每个候选关键词判断是否为中心词的二分类问题。常用的分类算法LR、朴素贝叶斯、SVM、GBDT、神经网络等分类算法都可以使用。
缺点:
需要人工标注训练集合,费时费力,因此不适合网络上的大规模应用。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的中心词提取方法、装置、计算机设备和存储介质。
第一方面,本发明实施例提供了一种中心词提取方法,所述方法包括以下步骤:
获取用户输入的查询文本,用户针对查询文本对应的查询结果的点击行为数据,以及用户所点击声音的文本数据;
根据查询文本,点击行为数据、声音的文本数据,生成查询节点数据;
对查询文本进行分词处理,根据得到的分词确定查询文本的目标分词;
将所述目标分词输入词向量生成模型,得到目标分词的词向量;所述词向量生成模型是对预设模型进行训练得到的,所述词向量生成模型的训练数据基于查询节点数据构造;
根据查询文本识别查询意图;基于相应意图类别的所有查询文本中目标分词的出现次数,相应意图类别所有查询文本的数量,以及所有查询文本中目标分词的出现次数确定目标分词于相应意图类别的权重;对查询文本中所有目标分词所对应的词向量进行加权求和,得到查询文本的向量表示;
基于声音的文本数据构建领域词汇知识库;
对目标分词进行词性标注处理,确定候选中心词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州荔支网络技术有限公司,未经广州荔支网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210277310.2/2.html,转载请声明来源钻瓜专利网。