[发明专利]确定用户查询语句句法结构的方法及装置有效
申请号: | 201410733986.3 | 申请日: | 2014-12-04 |
公开(公告)号: | CN104391969B | 公开(公告)日: | 2018-01-30 |
发明(设计)人: | 吴先超;刘占一 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京品源专利代理有限公司11332 | 代理人: | 路凯,胡彬 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 确定 用户 查询 语句 句法 结构 方法 装置 | ||
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种确定用户查询语句句法结构的方法及装置。
背景技术
用户查询语句(用户向搜索引擎输入的字符串)和网页主题句(网页标题,或者对网页进行解析得到的用于描述网页主要内容的语句)的相关性计算是搜索产品的核心问题点。正是网页的基于相关性计算的排名决定了搜索引擎的优劣和用户的搜索体验质量。其中,对于在搜索引擎输入的用户查询语句而言,其表现形式具有多样性,不仅同样的语义可以用不同的用户查询语句表达,而且同样的分词在不同的用户查询语句中也具有多义性。
例如,查询“日本收购的中国企业”的时候,可以采用如下多种用户查询语句:“被日本收购的中国企业”、“日本收购了哪些中国企业”、“中国企业日本收购”、“哪些中国企业被日本控股”等。而同一个查询关键词,例如“苹果多少钱”,可以指的是:苹果公司的市值,苹果公司新推出产品的价格,也可以指用户所在地的苹果这一水果的价格等。
因此,在计算用户查询语句和网页主题句的相关性的时候,不得不尽力解决这些问题。然而,传统的基于词袋(bag-of-words)的方法,只是简单地考虑单个词或者多个词的直接匹配,并没有考虑这些词组合起来后得到的真正语义是怎样的。例如一个用户查询语句“日本收购的中国企业”和一个网页主题句“中国收购日本企业”,虽然采用单个词直接匹配的方法,相似度非常高(除了助词“的”,其他的词都被匹配上了),然而这二者的含义却大为不同。即单单考虑词级别的匹配,无法区分开上述两句话的语义不匹配的问题。图1A是现有技术提供的一种搜索引擎在用户查询语句为“日本收购的中国企业”下的排名前六的搜索结果。参见图1A,只有排名第四的网页与用户查询语句所表达的含义是较为吻合的,而排名第一的网页、排名第二的网页、排名第三的网页、排名第五的网页、以及排名第六的网页,所表达的含义都趋向于“中国收购日本企业”,与用户查询语句“日本收购的中国企业”所表达的含义完全相反,严重影响用户体验。
为此,可尝试从句法结构的层面,来计算用户查询语句和网页主题句的相关性。也即,分别构建用户查询语句和网页主题句的句法结构,然后根据二者的句法结构之间的相似度,来衡量其相关性。但是,由于在搜索引擎中输入的用户查询语句往往是多种多样的,在语序上也是自由的,用户查询语句较为随意,所以要想捕捉到用户查询语句的句法结构,存在较大难度。即使能够捕捉成功,基于该捕捉结果与网页主题句的句法结构进行匹配,其匹配结果的准确率也十分低下。
发明内容
本发明实施例提供一种确定用户查询语句句法结构的方法及装置,以能够采用一种便于后续处理的方式来捕捉用户查询语句的句法结构,特别是便于后续衡量用户查询语句和待匹配网页主题句之间的相关性处理。
第一方面,本发明实施例提供了一种确定用户查询语句句法结构的方法,该方法包括:
识别用户查询语句中的分词与预设的网页主题句中的分词之间的对齐关系;
根据所述对齐关系和所述网页主题句的句法结构,构建所述用户查询语句的句法结构。
第二方面,本发明实施例还提供了一种确定用户查询语句句法结构的装置,该装置包括:
对齐关系识别单元,用于识别用户查询语句中的分词与预设的网页主题句中的分词之间的对齐关系;
句法结构构建单元,用于根据所述对齐关系和所述网页主题句的句法结构,构建所述用户查询语句的句法结构。
本发明实施例通过用户查询语句中的分词与预设的网页主题句中的分词之间的对齐关系,以及所述网页主题句的句法结构,来捕捉用户查询语句的句法结构,十分便于后续处理。特别是,在预设的网页主题句为与用户查询语句具有很高置信度关系的网页主题句的情况下,能够更好的以一种符合人类自然语言的方式来描述用户查询语句所表达的含义;在预设的网页主题句为与用户查询语句待匹配的网页主题句的情况下,可以提高后续搜索引擎对用户查询语句与网页主题句之间相似度的计算精度,有效保证搜索结果返回的准确率,提升用户的搜索体验。
附图说明
图1A是现有技术提供的一种搜索引擎在用户查询语句为“日本收购的中国企业”下的排名前六的搜索结果示意图;
图1B是本发明实施例一提供的一种确定用户查询语句句法结构的方法的流程示意图;
图2是本发明实施例二提供的一种确定用户查询语句句法结构的方法的流程示意图;
图3是本发明实施例三提供的一种确定用户查询语句句法结构的方法的流程示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410733986.3/2.html,转载请声明来源钻瓜专利网。