[发明专利]确定中心词的方法及装置、搜索方法及装置有效

专利信息
申请号: 201110369651.4 申请日: 2011-11-18
公开(公告)号: CN103123624A 公开(公告)日: 2013-05-29
发明(设计)人: 谈云兵;李连华 申请(专利权)人: 阿里巴巴集团控股有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京同达信恒知识产权代理有限公司 11291 代理人: 郭润湘
地址: 英属开曼群岛大开曼*** 国省代码: 开曼群岛;KY
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 确定 中心词 方法 装置 搜索
【说明书】:

技术领域

本申请涉及信息处理技术领域,尤其涉及一种确定中心词的方法及装置、搜索方法及装置。

背景技术

随着互联网技术的不断发展,越来越多的信息资源选择网络作为传播的载体。为了使用户能够在海量的互联网信息中获取所需要的信息,大多数网站都提供搜索功能,用户需要搜索某信息时,可以在网站中输入搜索关键词,该网站查找与该搜索关键词相关的信息,然后提供给用户。但是,当用户输入的搜索关键词太长时,网站就可能搜索不到与该搜索关键词相关的信息,用户就无法获取到所需要的信息。

针对上述问题,现有技术提出,网站在为用户查找信息时,先从用户输入的搜索关键词中提取出至少一个中心词,然后查找与提取出的中心词相关的信息,将查找到的信息提供给用户。这样,即使用户输入的搜索关键词过长,网站也能够根据提取出的中心词在海量的信息中搜索到相关信息。

如图1所示,其为现有技术中从搜索关键词中提取中心词的方法流程示意图,具体处理流程如下:

步骤11,当用户需要在网站中搜索某信息时,在该网站中输入一个搜索关键词,然后确认搜索,该网站就获得了用户输入的搜索关键词。

步骤12,网站将该搜索关键词划分为各关键词单元。

其中,网站可以基于统计的分词算法,使用语料库来划分关键词单元。例如,用户输入的搜索关键词为“纯色长袖衬衫”,网站将该搜索关键词进行划分后,得到的各关键词单元分别为“纯色”、“长袖”和“衬衫”。

步骤13,网站预先统计出规定时间段内搜索次数较多的各关键词单元,并针对统计出的每个关键词单元,分别设定该关键词单元的提取分数,其中,关键词单元在该规定时间段内的搜索次数越多,那么为该关键词单元设定的提取分数就越大,也可以直接将关键词单元在该规定时间段内的搜索次数设定为提取分数,网站将统计出的各关键词单元及其提取分数对应保存到中心词词典中。

步骤14,网站将步骤12划分出的各关键词单元,分别与中心词词典中存储的各关键词单元进行匹配。

步骤15,网站针对步骤14匹配成功的每个关键词单元,分别在上述中心词词典中查找该关键词单元对应的提取分数。

步骤16,网站按照提取分数由高到低的顺序,将步骤14匹配成功的各关键词单元进行排序,并将前预定数目个关键词单元确定为该搜索关键词的中心词。

由上述处理过程可知,现有技术是根据中心词词典从搜索关键词中提取中心词的,而中心词词典是预先根据规定时间段内关键词单元的搜索次数设定的,但是搜索次数并不能反映用户的搜索意图,这样就会出现根据上述中心词词典提取出的中心词并不能准确反映用户搜索意图的情况。例如,用户输入的搜索关键词为“打折手机”,进行关键词单元划分后得到“打折”和“手机”这两个关键词单元,由于“打折”这个关键词单元在规定时间段内的搜索次数比“手机”这个关键词单元在规定时间段内的搜索次数多,因此在上述中心词词典中,“打折”的提取分数要比“手机”的提取分数高,从而网站将“打折”确定为中心词,但是在划分出的两个关键词单元中,能够反映用户搜索意图的关键词单元应该是“手机”,而不是“打折”。由上可见,网站根据中心词词典提取出的中心词可能不准确,不能准确反映用户的搜索意图,如果网站按照这些中心词来为用户搜索信息,那么搜索到的信息中可能并不包含用户想要获取的信息,用户也就不会点击浏览这些信息,但是网站依然会将这些信息提供给用户,从而浪费了网站较多的处理资源。

发明内容

本申请实施例提供一种确定中心词的方法及装置、搜索方法及装置,用以解决现有技术中在确定中心词时浪费了网站较多的处理资源的问题。

本申请实施例技术方案如下:

一种确定中心词的方法,该方法包括:将用户输入的搜索关键词划分为各关键词单元;并确定划分出的各关键词单元的词性;从划分出的各关键词单元中,提取出词性为名词的关键词单元;并将提取出的关键词单元确定为所述搜索关键词的中心词。

一种搜索方法,该方法包括:接收用户输入的搜索关键词;根据上述确定中心词的方法,确定所述搜索关键词的中心词;根据确定出的所述搜索关键词的中心词,进行搜索,并返回搜索结果。

一种确定中心词的装置,包括:关键词划分单元,用于将用户输入的搜索关键词划分为各关键词单元;词性确定单元,用于确定关键词划分单元划分出的各关键词单元的词性;关键词提取单元,用于从关键词划分单元划分出的各关键词单元中,提取出词性为名词的关键词单元;第一中心词确定单元,用于将关键词提取单元提取出的关键词单元确定为所述搜索关键词的中心词。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110369651.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top