[发明专利]基于关键词提取的对象查询方法、装置、介质与设备在审
申请号: | 201911120133.1 | 申请日: | 2019-11-15 |
公开(公告)号: | CN112818091A | 公开(公告)日: | 2021-05-18 |
发明(设计)人: | 王娜;肖宁;高云;胡忆桐;左丽丽 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/289;G06F40/30 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 王辉;阚梓瑄 |
地址: | 100086 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 关键词 提取 对象 查询 方法 装置 介质 设备 | ||
本公开提供了一种基于关键词提取的对象查询方法、基于关键词提取的对象查询装置、计算机可读存储介质与电子设备,属于自然语言处理技术领域。所述方法包括:对待查询对象的主题文本进行分词处理,得到多个候选关键词;根据所述多个候选关键词之间的语义相似度,以其中的一个或多个所述候选关键词为顶点,建立图模型;基于顶点权重的迭代算法,确定所述图模型中所述顶点的权重;根据所述顶点的权重,从所述顶点对应的所述候选关键词中确定关于所述待查询对象的目标关键词;当接收到包含所述目标关键词的查询请求时,将所述待查询对象添加到所述查询请求的查询结果中。本公开通过语义关系提高对象文本关键词提取的准确度,提高了对象查询的准确率。
技术领域
本公开涉及自然语言处理技术领域,尤其涉及一种基于关键词提取的对象查询方法、基于关键词提取的对象查询装置、计算机可读存储介质与电子设备。
背景技术
关键词查询是目前常用的一种查询方式,随着计算机技术的发展,通过提取关键词以实现对象查询的方法已广泛应用于各类型的应用领域中,例如:电商类应用、资源搜索平台、生活服务类应用等,该方法主要是通过提取对象关键词,将关键词与用户查询时的输入词进行匹配,从而确定用户的查询对象。
目前,对象的关键词提取主要是通过计算对象文本中词的频率和位置关系来实现的,例如将出现频率较高、且位于词组最后的词(被修饰词)确定为关键词。但是在实际应用中,词的频率与文本的内容和长度高度相关,例如在短文本中词频普遍较低,无法以此区分关键词和非关键词,且位置关系又因写作者风格而异,例如在倒装、从句等语法结构中,或者在论坛、网络聊天等对于语法要求不严格的场景中,词和词之间的位置关系并不固定,因此通过上述关键词提取方法进行对象查询的准确率不高。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开提供了一种基于关键词提取的对象查询方法、基于关键词提取的对象查询装置、计算机可读存储介质与电子设备,进而至少在一定程度上改善现有技术中对象查询准确率不高的问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的第一方面,提供一种基于关键词提取的对象查询方法,所述方法包括:对待查询对象的主题文本进行分词处理,得到多个候选关键词;根据所述多个候选关键词之间的语义相似度,以其中的一个或多个所述候选关键词为顶点,建立图模型;基于顶点权重的迭代算法,确定所述图模型中所述顶点的权重;根据所述顶点的权重,从所述顶点对应的所述候选关键词中确定关于所述待查询对象的目标关键词;当接收到包含所述目标关键词的查询请求时,将所述待查询对象添加到所述查询请求的查询结果中。
在本公开的一种示例性实施方式中,所述多个候选关键词之间的语义相似度通过以下方式获得:利用词向量模型,得到所述候选关键词的语义向量;计算任意两个所述语义向量的相似度,以作为所述两个语义向量对应的所述候选关键词之间的语义相似度。
在本公开的一种示例性实施方式中,所述词向量模型通过以下方式获得:获取通用语料集和目标场景语料集;分别对所述通用语料集中的文本和所述目标场景语料集中的文本进行分词,得到通用词库和目标场景词库;根据所述通用词库和所述目标场景词库训练并得到所述词向量模型。
在本公开的一种示例性实施方式中,所述图模型包括无向图;所述根据所述多个候选关键词之间的语义相似度,以其中的一个或多个所述候选关键词为顶点,建立图模型包括:将每个所述候选关键词作为一个顶点;对于每个所述候选关键词,按照所述语义相似度由高到低的顺序排列该候选关键词分别和其他候选关键词形成的词对,选取其中前N个所述词对,分别在每个所述词对对应的两个所述顶点之间建立边,以构建所述无向图;其中,N为预设的正整数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911120133.1/2.html,转载请声明来源钻瓜专利网。