[发明专利]一种智能垂直搜索方法和系统在审
申请号: | 201410328404.3 | 申请日: | 2011-09-29 |
公开(公告)号: | CN104063513A | 公开(公告)日: | 2014-09-24 |
发明(设计)人: | 赵轶;许小东 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 智能 垂直 搜索 方法 系统 | ||
本发明专利申请是申请日为2011年09月29日、申请号为201110300772.3、名称为“一种智能垂直搜索方法和系统”的中国发明专利申请的分案申请。
技术领域
本申请涉及网络技术领域,特别是涉及一种智能垂直搜索方法和系统。
背景技术
随着互联网技术的发展,互联网上的信息呈现爆炸性的发展,这导致用户如果想要在网络中寻找到自己需要的信息,必须通过搜索去获取自己需要的信息,搜索是广大网民获取信息,到达指定网站的主要渠道。
现有技术中,一种是通用搜索,通过搜索引擎主动派出“蜘蛛”程序,对整个互联网的网站信息进行检索,蜘蛛爬虫在抓取一个页面后,对该页面进行分析入库,并读取页面的所有连接,然后对这些连接再进行抓取分析。通过上千蜘蛛的周期性不停抓取,实现了对整个互联网的所有网页信息的索引,并直接根据关键词匹配将所有与该关键词相关的信息以相关度排序返回给用户,其优点是搜索范围广,但缺点是用户通过关键词搜索返回的是大而全的结果,没法提供按行业特征进行分类筛选的服务,无法分类显示,然而哪些内容是用户本次搜索中想搜到的则无法进行判断,用户需要花很长时间在结果中找自己需要的信息。
另外一种是垂直搜索,其站内资源的深度搜索,用户在其网站上添加相应数据,系统对该数据进行检查与过滤,搜索引擎将这些数据进行中文分词建立索引,供其他用户查询,是某个网站针对其站内信息的搜索服务,其网站内的信息是由其站内用户直接将各种信息添加入该网站的各个分类中,其优点是分类清晰,但缺点是搜索范围较窄,提供的结果不够全面,用户需通过与其他搜索引擎配合使用才能了解到全面的信息。
发明内容
本申请所要解决的技术问题是提供一种垂直智能垂直搜索方法和系统,解决用户在搜索信息时无法全面、准确、快速的获取相关信息的缺点。
为了解决上述问题,本申请公开了一种智能垂直搜索方法,包括:
获取用户端选择的一行业中输入的查询词;
根据所述查询词与分类数据库中的该行业已分类的各条目匹配的结果,获取各类别与查询词相关的条目,并按类别将各所述类别的条目及相关信息展现给用户;其中,所述的条目为电子商务网页中的一项或多项业务内容;
其中,所述该行业已分类的各条目通过以下步骤获得:
获取所述行业所有网页的所有条目及相关信息;
将各条目中的关键词与该行业各类别对应的关键词的词法匹配结果进行加权分析确定各条目所属类别;
和/或,根据未分类条目的各关键词的出现次数比率与根据预先统计获得的已分类条目的各关键词的出现概率的相似度确定各条目所属类别。
优选的,所述的查询词包括:
将用户的输入的关键词作为查询词;
或者,将用户选择的根据该用户的输入词返回的建议词中的一个作为查询词;其中,所述的建议词通过预先统计的用户输入的输入词与对应结果的点击关系提取获得。
优选的,还包括以下安全检测步骤:
步骤A、对于所述获取的待分类的每个条目所在的链接地址,通过安全检查引擎和木马查杀引擎检查所述链接地址是否安全,如果安全,则对所述条目进行分类;
和/或,步骤B,对于所述分类数据库中的已分类的条目所在的链接地址,通过安全检查引擎不断遍历每个链接地址,如果不安全,则将该链接地址的相关数据从分类数据库中删除;
和/或,步骤C,对于用户点击的一条目所在的链接地址,通过安全检查引擎检查该链接地址是否安全,如果不安全,则提示用户并在分类数据库中将该链接地址的相关数据删除。
优选的,通过安全检查引擎和木马查杀引擎检查所述链接地址是否安全的过程通过以下步骤进行:
步骤P1,对于所述获取的待分类的每个条目所在的链接地址,将该链接地址提交给安全检查引擎检查其是否在安全等级库中存在;
步骤P2,如果存在并安全,则对所述条目进行分类;
步骤P3,如果存在但不安全,则发送警告信息,并过滤掉该链接地址的相关数据;
步骤P4,如果不存在,则通过木马查杀引擎检查该链接地址,判断该链接是否安全,如果安全,将该链接地址存入安全等级库,并转入步骤P1。
优选的,还包括以下安全检测步骤:
通过包括所述条目的链接地址icp备案信息和/或网站实名认证系统对所述条目进行安全检测。
优选的,在获取所述行业所有网页的所有条目及相关信息时包括:
自动抓取步骤,用于自动抓取所述行业所有网页的所有条目及相关信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410328404.3/2.html,转载请声明来源钻瓜专利网。