[发明专利]一种房地产信息快速搜索方法有效
申请号: | 201410060697.1 | 申请日: | 2014-02-21 |
公开(公告)号: | CN103886020B | 公开(公告)日: | 2017-04-05 |
发明(设计)人: | 袁友伟;李勇;俞东进;鄢腊梅;杨威 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/20 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙)33240 | 代理人: | 杜军 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 该发明公开了一种房地产信息快速搜索方法。本发明首先将链接聚类与隧道技术应用到Shark‑Search算法中实现聚焦网络爬虫。其次对页面信息进行处理,将网页从半结构化变成结构化信息后。然后对房地产信息进行中文分词处理并对中文分词后的信息进行索引。最后由用户检索模块对用户查询内容进行响应。本发明具有搜索响应速度快,信息准确率高,稳定性好等特点,用户能够根据自己输入的关键词快速搜索到自己想要的房地产信息。 | ||
搜索关键词: | 一种 房地产 信息 快速 搜索 方法 | ||
【主权项】:
一种房地产信息快速搜索方法,其特征在于该方法包括以下步骤:第一步,将链接聚类与隧道技术应用到Shark‑Search算法中实现聚焦网络爬虫,通过聚焦网络爬虫对英特网中的所有房地产信息进行抓取,然后将抓取的信息存储至本地的文件系统;所述的聚焦网络爬虫其实现方法如下:(1)将网页中的信息转化成文档对象模型树,然后再将树中的节点按照层次遍历进行编号,将链接所对应的编号路径提取出来;(2)把网页中的链接按照提取出来的顺序放入队列中,找出满足任意两个节点间的路径大于等于2的最大匹配字串,将该字串中的所有元素从队列中取出,归并入相应的类中;依此不断进行,直到满足条件的所有链接归入类中;(3)令L为所有待分类链接集合;Gi为属于类别i的链接集合;class_num为当前类别编号;flag为标记;执行以下操作:a)初始化:设置L={u1,u2,…,un};G1,G2,…Gn=Φ;class_num=1;flag=1;b)当L集合非空并且flag=1时,设置flag=0;c)遍历L中的每个链接ui,如果有与ui路径相同的最大路径值大于1,则将ui放入相应的Gclass_num中,将class_num加1,设置flag=0;d)继续进行步骤b),直到flag=0或者L为空;(4)根据(3)可得每个类别所包含的链接数为|Gi|,令cluster_url_num为总类别数,anchor_score(url)为锚文本的相似度评分,则cluster_url_num=Max(class_num),计算类别得分class_score的公式如下:class_score=Σcluster_url_numanchor_score(url)cluster_url_num]]>(5)用class_score替换Shark‑Search算法中的anchor_context_score,新的相邻链接评分neighborhood_score如下所示:neighborhood_score(url)=β*anchor_score(url)+(1‑β)*class_score(url),0≤β≤1;由(1)‑(5)得出改进后的Shark‑Search的主题预测值potential_score(url);对于聚焦爬虫来说,为了尽最大的努力防止抓取非主题相关网页,必须对网页的主题进行预测,以便提高抓取效率;然而,在网页的主题预测过程中不可能百分百地预测出其正确的主题;为了防止对网页进行主题预测时疏忽潜在的主题相关网页,引进隧道技术,具体是:将加入链接聚类算法后的Shark‑Search算法中的URL等候队列分成两个:主题相关队列relevant_Queue和主题不相关队列irrelevant_Queue;同时,设置两个阈值δ和μ:阈值δ用来决定URL进入哪一个队列,阈值μ用来决定irrelevant_Queue队列中的URL需要继续爬行的深度,δ<1,μ>1;得出主题的预测值potential_score后,根据其值来确定等待抓取页面的URL应该放入哪个URL等候队列中:当一个页面的主题预测值大于等于δ则进入relevant_Queue队列,否则,进入irrelevant_Queue队列;对于在relevant_Queue队列中的URL,可以直接抓取对应的网页;而在irrelevant_Queue队列中的URL,由于预测值小于δ,被定为主题不相关URL,所以需要继续爬行其子孙节点;当爬行深度D大于等于μ时,则表示已经连续爬行了μ个非主题相关的网页,停止继续沿该路径进行爬行,反之继续搜索;第二步,对页面信息进行处理,具体是:将网页从半结构化变成结构化信息,再进行噪音信息的处理,之后将有用的信息进行抽取,保存为结构化信息;第三步,对房地产信息进行中文分词处理;中文分词主要在两个方面进行处理:第一,对于从数据库中获取的文本数据进行中文分词操作;第二,对于用户输入的关键字进行中文分词操作,以便于搜索操作;这两个方面处理的中文分词采用同一个中文分词系统,利用隐马尔可夫模型HMM结合词性标注增加对房地产命名识别的功能,从而为后续的用户搜索提供了更好的结果排序集;其中利用HMM结合词性标注对房地产命名识别具体是:主要识别两个方面的词汇:第一,对于从数据库中获取的文本数据;第二,对于用户输入的关键词;识别过程是:给定一个句子序列W=w1w2w3…wn,找到一个最佳的类型序列C=c1c2c3…cn,使得P(C|W)的值最大;由贝叶斯公式可知P(C|W)=P(C,W)/P(W),对于一个给定的句子来说,P(W)是固定不变的,因此只要使P(C,W)最大就能得出P(C|W)的最大值;将房地产命名的识别设置成4种状态:开始状态、中间状态、结束状态和其他状态,即状态集合S={s1,s2,s3,s4}中的4个元素分别对应前面4种状态;在计算HMM五元组中的隐含状态转移概率矩阵A、观测状态转移概率矩阵B、初始状态概率矩阵π前,需要对语料库进行预处理:(1)从网络上抓取房地产相关新闻的文本;(2)对抓取的文本进行预处理,进行简单的分词操作,词性标注;(3)人工进行房地产命名的标注,在命名的第一个词前面加上“[”,在最后一个词后面加上“]FC”,其他词则用“[]”包围并且在后面添加“Z”;(4)把房地产命名分成四种状态,FB,FM,FE,FO分别代表命名的开始、中间、结束和其他状态;上述四步操作结束后接下来进行A,B,π这三个参数的计算;采用最大似然估计法求解,A,B,π的求解分别如式(1)‑(3)所示;aij=C(Si,Sj)C(Si,S)---(1)]]>bj(k)=Oj(Vk)C(Si,S)---(2)]]>πi=SiN---(3)]]> 式(1)‑(3)中的S表示所有状态,C(Si,S)为从Si转移到其他所有状态的次数;C(Si,Sj)为从状态Si转移到Sj的次数,Si,Sj为FB,FM,FE,FO中的一种;Vk表示词性,Oj(Vk)表示状态Sj中出现Vk的次数;N表示句子总数;使用维特比算法实现训练集的自动标注,即从所有可能的标注序列中选择概率最大的作为最终标注结果;对于给定的W=w1w2w3…wn,C=c1c2c3…cn为可能的标注序列,C#为概率最大的标注序列,C#如式(4)所示;C#=argmaxCP(C|W)---(4)]]> 由贝叶斯公式可知,P(C|W)=P(W|C)P(C)/P(W),将wi视为观察序列,C为W后的隐状态序列,则通过HMM可以计算P(W|C)P(C),计算如式(5)所示;P(W|C)P(C)≈Πi=1mp(wi|ci)p(ci|ci+1)---(5)]]> 因此C#就转化成式(6);C#=argmaxCΠi=1mp(wi|ci)p(ci|ci+1)---(6)]]> 为了方便计算,对式(6)取负对数,如式(7)所示;C#=argminC{-Σi=1m[lnp(wi|ci)+lnp(ci|ci+1)]}---(7)]]> 因此训练集的自动标注就转化为式(7)的求解问题,维特比算法是解决该问题的典型算法;对于式(7)中的p(wi|ci)和p(ci|ci+1)求解,根据大数定理可以得出式(8‑9);p(wi|ci)≈C(wi,ci)/C(ci) (8)p(ci|ci+1)≈C(ci,ci+1)/C(ci) (9)通过上述公式计算C#后,识别出房地产命名实体以及一般的命名实体;第四步,采用Hibernate‑Search对中文分词后的信息进行索引操作;第五步,由用户检索模块对用户查询内容进行响应;查询需要用户在查询文本框中输入搜索关键字,然后系统对用户输入的字符串进行中文分词操作,将系统返回的结果进行排序操作;结果排序操作由Hibernate‑Search实现。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410060697.1/,转载请声明来源钻瓜专利网。
- 上一篇:基于神经元MOS管的差分型双边沿触发器
- 下一篇:新型强迫风冷散热机柜
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置