[发明专利]确定用户查询语句句法结构的方法及装置有效
申请号: | 201410733986.3 | 申请日: | 2014-12-04 |
公开(公告)号: | CN104391969B | 公开(公告)日: | 2018-01-30 |
发明(设计)人: | 吴先超;刘占一 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京品源专利代理有限公司11332 | 代理人: | 路凯,胡彬 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 确定 用户 查询 语句 句法 结构 方法 装置 | ||
1.一种确定用户查询语句句法结构的方法,其特征在于,包括:
识别用户查询语句中的分词与预设的网页主题句中的分词之间的对齐关系;
根据所述对齐关系和所述网页主题句的句法结构,构建所述用户查询语句的句法结构;
其中,如果所述用户查询语句的句法结构是应用于用户查询语句与网页主题句之间匹配度计算的,则预设的网页主题句为与用户查询语句待匹配的网页主题句;
如果所述用户查询语句的句法结构是应用于对用户查询语句所表达含义的正确表示的,则预设的网页主题句为与用户查询语句具有置信关系的网页主题句;其中,与用户查询语句具有置信关系的网页主题句,是与用户查询语句对应的用户点击网页链接中点击率最高的网页链接的网页主题句。
2.根据权利要求1所述的确定用户查询语句句法结构的方法,其特征在于,根据所述对齐关系和所述网页主题句的句法结构,确定所述用户查询语句的句法结构,包括:
如果所述网页主题句中的两个分词之间具备句法结构关系,且所述两个分词分别与所述用户查询语句中的两个分词具备对齐关系,则在所述用户查询语句中的两个分词之间,建立所述网页主题句中的两个分词之间所具备的句法结构关系,以构成所述用户查询语句的句法结构。
3.根据权利要求1所述的确定用户查询语句句法结构的方法,其特征在于,在识别用户查询语句中的分词与预设的网页主题句中的分词之间的对齐关系之前,还包括:
获取样本集,其中所述样本集包括:由多个查询语句样本组成的源语言样本子集,以及由与所述查询语句样本具有置信关系的网页主题句样本组成的翻译语言样本子集;
基于词对齐算法,对所述样本集进行训练,以学习得到词对齐列表,其中所述词对齐列表中包含源语言样本子集中的分词与翻译语言样本子集中的分词之间的对齐关系;
识别用户查询语句中的分词与预设的网页主题句中的分词之间的对齐关系,包括:
根据所述词对齐列表,识别用户查询语句中的分词与预设的网页主题句中的分词之间的对齐关系。
4.根据权利要求3所述的确定用户查询语句句法结构的方法,其特征在于,所述源语言样本子集包括:查询日志中所包含的用户输入的历史查询语句;
所述翻译语言样本子集包括:与所述历史查询语句对应的用户点击网页链接中点击率超过设定点击阈值的网页链接的网页主题句。
5.根据权利要求3所述的确定用户查询语句句法结构的方法,其特征在于,在识别用户查询语句的各分词与预设的网页主题句中的分词之间的对齐关系之前,还包括:
识别所述用户查询语句中的各分词的词性,以得到词性标注结果;获取所述网页主题句的词性标注结果;
识别用户查询语句中的分词与预设的网页主题句中的分词之间的对齐关系,包括:
根据所述词对齐列表、所述用户查询语句的词性标注结果和所述网页主题句的词性标注结果,确定所述用户查询语句中的分词与所述网页主题句中的分词之间的对齐关系。
6.根据权利要求1-5中任一项所述的确定用户查询语句句法结构的方法,其特征在于,所述网页主题句为与所述用户查询语句待匹配的网页主题句;
在构建所述用户查询语句的句法结构之后,还包括:
计算所述用户查询语句的句法结构与所述网页主题句的句法结构之间的相似度,将计算结果作为所述用户查询语句与所述网页主题句之间的匹配结果。
7.根据权利要求6所述的确定用户查询语句句法结构的方法,其特征在于,计算所述用户查询语句的句法结构与所述网页主题句的句法结构之间的相似度,包括:
按照如下公式,计算所述相似度:
L=S/[{S1+S2}/2]
其中,L为所述相似度;S1为所述用户查询语句的句法结构中所包含的分词之间的句法结构关系的总数量;S2为所述网页主题句的句法结构中所包含的分词之间的句法结构关系的总数量;S为所述用户查询语句的句法结构中与所述网页主题句的句法结构中具有的相同句法结构关系的总数量。
8.根据权利要求1-5中任一项所述的确定用户查询语句句法结构的方法,其特征在于,所述句法结构为语法依存树,句法结构关系为依存关系;或者
所述句法结构为语义角色标注树,句法结构关系为语义关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410733986.3/1.html,转载请声明来源钻瓜专利网。