[发明专利]一种移动搜索引擎优化方法在审
申请号: | 201210491498.7 | 申请日: | 2012-11-27 |
公开(公告)号: | CN103838797A | 公开(公告)日: | 2014-06-04 |
发明(设计)人: | 李勇;郑世超 | 申请(专利权)人: | 大连灵动科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 曲永祚 |
地址: | 116023 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 移动 搜索引擎 优化 方法 | ||
技术领域
本发明涉及移动互联网技术,特别是一种移动搜索引擎的优化方法。
背景技术
搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。当今,随着无线通讯技术的创新和手机的普及,移动上网渐渐成为发展趋势,为了满足用户随时随地查询衣食住行信息的需求,如何建立移动搜索引擎,成为移动网络应用的热点。移动上网受手机终端和传输带宽的限制,纯HTML文本只有少数智能机型可以支持,大多数手机只识别WAP协议标记的语言,如WML或xHTML。但是,网络信息主要以HTML语言表达,WAP的资源有限,单纯以爬取WAP页面作为信息来源的移动搜索引擎无法提供足够的信息。因此,如何能突破限制,使手机客户也能搜索到来源于HTML的海量信息,成为移动搜索的主要问题之一。对于使用手机浏览HTML页面,一般的方法是加入一个WAP网关,当手机发出浏览HTML网页的请求时,由网关首先读取该网页,并将其转化成相应的WML,再发送到手机。这种方式也是当前将通用搜索引擎扩展为移动搜索引擎的流行方式。但是这种实时翻译的方式,显然对网关的性能和带宽要求较高。
本发明针对移动搜索引擎的现状,在现有互联网搜索引擎的框架上加入移动模块,提出一种利用HTML资源建立移动搜索引擎的方式,该方式通过集中处理网络蜘蛛抓取的HTML网页,对网络蜘蛛抓取的HTML网页进行翻译处理,将其翻译成WML形式的网页快照,生成WML语言的网页快照,满足用户的移动搜索需求。以该技术建立的移动搜索引擎,不需要实时翻译网关的支持,可以方便的扩展已有的搜索引擎系统。在实际应用中,使用这种方式成功的建立了一个面向生活服务领域的移动搜索引擎,覆盖全国近四十个城市的餐饮、娱乐和黄页信息。
发明内容
根据移动搜索引擎的现状,提出一种移动搜索引擎优化方法,包括以下步骤:
A、设计移动搜索引擎框架
包括以下步骤:本搜索引擎框架也是由搜索器、索引器、检索器、用户接口四个部分组成,还具有移动模块,作为移动搜索引擎,
它包括三个部分:
翻译器,将蜘蛛抓取的HTML页转化为WML页;
WML网页快照库,保存转化后的WML页;
WAP接口,用手机访问的用户界面;
B、建立URL列表
将抓取到的网页存入网页库,并将网页上的所有超链接存入到URL列表中;
C、编辑翻译器
翻译器具有网页过滤、主题信息过滤和翻译三个部分;
C.1网页过滤
首先将目录页面过滤,不予翻译,根据网页的文本节点数与链接数的比例,来划分页面的性质,存入索引库;
C.2主题信息过滤
提取网页的主题相关部分,选择不依赖于信息源的STU-DOM的树模型,
将网页的table、tr、div和tbody标签结点作为分块结点,对于一个块的取舍用局部相关度Local Correlativity)和上下文相关度Contextual Correlativity来衡量;局部相关度由块内链接和内容决定,其计算公式可以表达为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连灵动科技发展有限公司,未经大连灵动科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210491498.7/2.html,转载请声明来源钻瓜专利网。