[发明专利]一种语句检索方法以及相关装置在审
申请号: | 202010203117.5 | 申请日: | 2020-03-20 |
公开(公告)号: | CN113495984A | 公开(公告)日: | 2021-10-12 |
发明(设计)人: | 张安;冀元祎 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F16/9532 | 分类号: | G06F16/9532;G06F16/33;G06F40/289;G06F40/30 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王仲凯 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语句 检索 方法 以及 相关 装置 | ||
本申请实施例公开了一种语句检索方法以及相关装置,从查询语句中提取第一可查询词序列,第一可查询词序列包括核心词和非核心词,核心词的语义权重大于非核心词的语义权重。在使用核心词检索原始文档集合后,以得到目标文档集合。计算第一可查询词序列与目标文档集合中各个文档的相关性,并确定查询语句的检索结果。由于核心词是查询语句中语义权重较高的词,通过使用核心词检索文档,可以保证检索结果中目标文档与查询语句的相关性,同时降低了读写资源的占用率,提升语句检索速度。
技术领域
本申请涉及计算机技术领域,尤其涉及一种语句检索方法以及相关装置。
背景技术
信息检索装置(例如搜索引擎),根据用户输入的查询语句(query)进行查询,并生成相关查询结果返回给用户。当信息检索装置获取了用户输入的查询语句后,可以对该查询语句进行分词,得到可查询词(term)的有序序列,该有序序列包括一个或多个可查询词。再例如,信息检索装置将网页或条目等数据中的文本信息转化为文档(document), 该文档也可以视为一个可查询词的有序序列。该文档中的每个可查询词的索引,以倒排索 引列表(invertedlist)的形式进行存储。倒排索引列表用于表示某个可查询词在哪些 文档中出现,以及某个可查询词在该文档中出现的位置。
现有技术方案中,首先,信息检索装置根据查询语句生成可查询词的有序序列。然后, 信息检索装置将由查询语句生成的每个可查询词,在文档集合的倒排索引列表中取交集。 当检索到某个文档的倒排索引列表包括该查询语句的每个可查询词时,信息检索装置计算 该文档和查询语句之间的相关性,并对两者相关性进行量化打分。文档的相关性分数越高, 则该文档与查询短语越匹配。
以查询语句“QWER”为例,通过分词处理,可以得到“Q”、“W”、“E”以及“R”这 四个可查询词。信息检索装置对该查询语句进行检索时,该可查询词的有序列表中每个可 查询词,都需要遍历文档集合所对应的倒排索引列表。对于可查询词“Q”和“W”,经过 语义分析可得到该可查询词的语义权重(semantic weight)较低,该可查询词在计算文 档与查询语句的相关性分数时贡献较低,而“E”和“R”语义权重较高。进行语句检索时, 例如:查询到以下两个语句,A“QWTY”;B“ERUI”。对A/B进行分词,可得A的分词与查 询语句中“Q”和“W”一致,B的分词与查询语句中“E”和“R”一致。
现有技术得到的检索结果中,A/B与查询语句的相关性是一致的,即均有两个可查询词一致。但是显然,B与查询语句的相关性大于A与查询语句的相关性,用户需要得到检 索结果是B。综上所述,对这些语义权重较低的可查询词,当前信息检索装置仍然需要在 倒排索引列表中进行检索,造成读写资源的浪费,降低语句检索速度。
发明内容
本申请实施例提供了一种语句检索方法以及相关装置,从查询语句中提取第一可查询 词序列,第一可查询词序列包括核心词和非核心词,通过分级检索,省去了使用非核心词 检索原始文档集合的步骤。在使用核心词检索原始文档集合后,以得到目标文档集合。计 算第一可查询词序列与目标文档集合中各个文档的相关性,并确定查询语句的检索结果。 在保证检索正确率的前提下,降低了读写资源的占用率,提升语句检索速度。
第一方面,本申请实施例提供了一种语句检索方法,可以包括:首先,从查询语句中 提取第一可查询词序列,其中,该第一可查询词序列中各个可查询词按照该查询语句中的 顺序进行排列,该第一可查询词序列包括至少一个核心词和至少一个非核心词,该核心词 为该第一可查询词序列中的语义权重大于该非核心词的可查询词。以查询语句为“关于中 美贸易发展”为例,则该第一可查询词序列可以为:“关于”、“中美”、“贸易”和“发展”,且,该序列的语序是“关于”-“中美”-“贸易”-“发展”,即与查询语句中这些词语排 布的顺序一致。其次,根据该核心词检索原始文档集合,以得到目标文档集合,其中,该 目标文档集合包括至少一个目标文档,该目标文档包括该核心词;再次,计算该第一可查 询词序列与该目标文档集合中各个文档的相关性,并确定该查询语句的检索结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010203117.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:新型冠状病毒抗体及其应用
- 下一篇:一种应用于体外诊断仪器的连接结构