[发明专利]一种基于领域内网的搜索引擎系统及构建方法有效
申请号: | 201910367379.2 | 申请日: | 2019-05-05 |
公开(公告)号: | CN110134851B | 公开(公告)日: | 2021-10-15 |
发明(设计)人: | 阿孜古丽;杨石兵;贾麒;张德政;谢永红;夏超 | 申请(专利权)人: | 北京科技大学 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/951;G06F16/31;G06F16/332 |
代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 域内 搜索引擎 系统 构建 方法 | ||
1.一种基于领域内网的搜索引擎系统的构建方法,其特征在于,所述方法包括如下步骤:
步骤S1,构建大数据存储平台和检索集群;
步骤S2,构建网络爬虫子系统,自动抓取所述领域内网的网络信息数据,并存储于所述大数据存储平台;所述构建网络爬虫子系统,进一步包括:
步骤S21,手工整理所述领域内网范围内的网络地址作为网络爬虫启动时的初始种子集;
步骤S22,以所述初始种子集为基础,利用开源网络爬虫完成抓取基本数据;
步骤S23,根据所述开源网络爬虫生成的日志文件人工整理过滤规则库,过滤所述基本数据中的无意义网页;
步骤S24,根据领域内网的网络数据特点,设计增量更新策略,选取过时的网页数据信息进行重新抓取更新;
步骤S3,构建信息资源抽取子系统,从存储于大数据存储平台的所述网络信息数据中自动抽取资源信息数据;
其中,所述步骤S3中自动抽取资源信息数据,包括全表抽取和实时抽取;其中,
所述全表抽取基于Hbase行主键的资源抽取策略,一次性对Hbase表中的全部网络数据进行抽取;所述实时抽取基于时间戳步长的资源抽取策略,对Hbase表中的新增网络数据进行增量抽取;
其中,基于Hbase行主键的全表抽取,包括以下步骤:
步骤S311,反向扫描Hbase表获取当前表中最后一条记录的行主键作为本次全表资源抽取任务的终止条件;
步骤S312,根据设定的步长参数从当前表中的第一条记录开始读取相应规模的网页数据;
步骤S313,利用Java开源工具Jsoup 抽取网页HTML源码中的图片、文档、视频信息资源的绝对地址及其他属性信息;
步骤S314,将抽取到的绝对地址及对应的各种属性信息保存到原数据表及设计的临时表中;
步骤S315,返回步骤S312,直至满足终止条件;
其中,基于时间戳步长的实时抽取,包括以下步骤:
步骤S321,维护一个时间戳文件,记录实时抽取任务的起始时间戳;
步骤S322,根据读取的起始时间戳和时间戳步长计算对应的终止时间戳;
步骤S323,扫描Hbase数据表获得对应时间戳范围内记录的行主键列表;
步骤S324,遍历行主键列表,读取对应的网页数据,利用Java开源工具Jsoup抽取相应的资源信息并存储;
步骤S325,获取当前系统时间对应的时间戳,若大于终止时间戳,则将终止时间戳写回时间戳文件作为下次实时抽取任务的起始时间戳,否则,将当前系统时间对应的时间戳写回;
步骤S4,构建基于临时表机制的同步子系统,对步骤S3所自动抽取到的资源信息数据进行自动索引;所述构建基于临时表机制的同步子系统,包括如下步骤:
步骤S41,构建临时表暂时存储步骤S3抽取到的资源信息数据及其属性信息;
步骤S42,根据设定的同步范围循环读取临时表中资源信息,将读取到的信息封装成Json串格式,调用ElasticSearch的API接口将相关信息索引到检索集群中;
步骤S5,构建基于中文分词组件和领域词表的检索子系统,结合所述检索集群,处理检索关键词并返回检索结果;所述构建基于中文分词组件和领域词表的检索子系统,包括如下步骤:
步骤S51,选取适合目标领域的中文分词组件;
步骤S52,手工整理领域专业词汇形成专业词表;
步骤S53,在传统的关键词匹配的搜索策略的基础上,结合中文分词组件和领域专业词表设计了适合领域的搜索策略;具体分为以下几步:
步骤S531,基于领域专业词表,对接收到的关键词信息进行匹配,将匹配到的专业词汇返回作为检索用的关键词集合的一部分;
步骤S532,基于中文分词组件,对接收到的关键词信息进行分词处理,将分词结果也作为检索用的关键词集合的一部分;
步骤S533,将步骤S531及步骤S532所得到的关键词与原始接收到的关键词合并形成最终检索用的关键词集合;
步骤S534,为关键词集合中的关键词分配不同的权重,其中权重大小关系为:领域专业词表匹配到的关键词 基于中文分词组件分词得到的关键词 原始接收到的关键词;
步骤S535,根据处理完毕的关键词集合封装检索用的Json串,并提交给ElasticSearch集群进行资源检索;
步骤S6,构建用户接口子系统,接收用户的检索请求并展示返回的检索结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京科技大学,未经北京科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910367379.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种搜索方法及装置
- 下一篇:一种文档的去重方法、设备及可读介质