[发明专利]一种专利领域的垂直搜索引擎在审
申请号: | 201210490948.0 | 申请日: | 2012-11-27 |
公开(公告)号: | CN103838785A | 公开(公告)日: | 2014-06-04 |
发明(设计)人: | 苏晓华;刘立堂 | 申请(专利权)人: | 大连灵动科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 曲永祚 |
地址: | 116023 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明设计并实现了一种专利领域的垂直搜索引擎。专利垂直搜索系统是在专利领域应用垂直搜索的理念和技术,面向互联网中为数不多的专利权威网站,对它们的专利信息资源进行抓取、分析、整合,最后给专利相关工作者提供专业的专利搜索以及聚类可视化分析服务。专利信息绝大部分集中在少数几个专利站点,所以只需要对这些特定的专利站点进行采集,就能满足绝大多数用户的需求。采集对象的有限性和针对性,可以很好的提高采集的效率和准确率,而且信息的及时更新也可以得到保证。对聚类结果进行可视化能使用户更加直观形象地理解聚类得到的信息,了解数据之间的相互关系及发展趋势,从更高的层次对数据进行更深入的观察和分析。 | ||
搜索关键词: | 一种 专利 领域 垂直 搜索引擎 | ||
【主权项】:
一种专利领域的垂直搜索引擎,其特征在于:包括以下步骤:A、专利信息采集信息采集模块的主要功能是通过网络蜘蛛技术抓取专利领域的网页并存储到本地;垂直网络蜘蛛主要包括主题确定、网页采集、链接分析、内容分析和相关性分析五个模块;A1、主题确定主题确定模块主要解决初始种子URL的选取及主题特征的提取;初始种子URL,并通过程序收集一定数目的专利网页作为训练集合,经中文分词处理后,确定相应的主题特征词,用于后续的主题相关度分析;A2、网页采集网络蜘蛛采用多线程技术,从URL队列中获取输入数据,向该URL对应的Web服务器发出下载请求,采集到的页面由后续模块做进一步的处理;A3、链接分析对于采集到的网页,分析并尽可能多地提取出其中的链接;页面链接的URL一般是多种格式的,可能是完整路径,也可能是相对路径,必须对它们进行处理转换得到统一标准格式的完整URL,然后调用相关性分析模块决定URL的取舍,对于满足条件的URL插入到URL队列中;A4、内容分析对于采集到的网页,分析网页文本信息,包括过滤HTML标签、网页内容文本提取、切词,提取其中的特征项;A5、相关性分析主题相关性分析模块通过向量空间模型计算网页向量与主题特征向量之间的相似度;以此决定网页的取舍以及URL在候选队列中的优先级顺序;B、专利信息抽取首先,对目标网页进行分析,确定待抽取的元数据并分析其对应的HTML代码特点;然后,根据待抽取元数据在网页中对应的代码特点制定相应的抽取规则,抽取规则的制定要保证对待抽取数据匹配的唯一性;最后,对抽取后的结构化数据进行整合处理,确保数据库中专利信息的一致性和完整性;C、专利信息检索C1、建立索引文件通过接口调用Lucene的索引模块,实现对数据库中的信息建立索引;首先从数据库中提取出要索引的文本,将文本组织成一个Document类型的对象;由分析器对文本进行分析,针对中文文本主要需要实现的是中文分词;文本分析后,索引生成模块把预处理后的文档加入到索引文件中,包括统计每个词在文档中出现的次数、出现的位置等相关信息,将这些信息存储在索引文件中;C2、专利搜索首先对用户输入的搜索关键词进行切词,然后从索引文件中查找包含切分出的每个词的文档并对这些文档集进行汇总,得到最终的结果集;如果结果集中的文档数大于零,则对检索结果按照相关度排序,并对首页显示的结果进行关键词高亮显示后返回给用户,并对当前的检索结果进行缓存处理;D、聚类可视化首先对检索模块返回的搜索结果进行数据预处理,主要是去除中文停用词和非词的标记,然后对处理后的文本字符串生成一颗后缀树,通过后缀树识别短语类进行聚类,对短语类处理合并后生成最终的聚类结果,最后对聚类结果进行可视化表示。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连灵动科技发展有限公司,未经大连灵动科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210490948.0/,转载请声明来源钻瓜专利网。
- 上一篇:汽车制动系统用气制动阀
- 下一篇:一种气液联合制动装置