[发明专利]一种主题自适应的学术会议搜索系统有效

专利信息
申请号: 201310003000.2 申请日: 2013-01-05
公开(公告)号: CN103049575A 公开(公告)日: 2013-04-17
发明(设计)人: 金海;赵峰;孙正;聂昶 申请(专利权)人: 华中科技大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 华中科技大学专利中心 42201 代理人: 朱仁玲
地址: 430074 湖北*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 主题 自适应 学术会议 搜索 系统
【说明书】:

技术领域

发明属于信息检索、信息抽取、文本挖掘领域,更具体地,涉及一种主题自适应的学术会议搜索系统。

背景技术

随着学术交流的举办愈加频繁,全球学术会议及学术期刊的数量逐年激增。对于科研工作者而言,如何方便快捷地从众多的学术会议和学术期刊中找到与自己的研究领域相吻合的会议或期刊,进而查阅相关的文献用以参考;又或者如何从海量的学术会议及学术期刊中选择适合自己论文投稿的会议或期刊,以增加录用的概率,已然成为科研工作者十分关心的问题。

现有的科技文献检索引擎基本上采用的都是基于关键字的全文检索方式来响应用户的查询请求,而且其主要检索对象大部分都是定位在科技文献上,对于学术会议的检索支持很少甚至没有。例如,Google Scholar、ACM数据库、IEEE数字图书馆、中国知识资源总库CNKI,大多没有专门针对学术会议提供检索服务,更没有对学术会议的主题信息进行深度挖掘。此外,通过对科研工作者的论文进行文本挖掘进而达到主题发现的目的,以实现主题自适应的投稿推荐服务在现有的科技文献平台中还鲜有见过。

发明内容

针对现有技术的缺陷,本发明的目的在于提供一种主题自适应的学术会议搜索系统,该系统可以为用户提供主题自适应的学术会议检索服务以及主题自适应的个性化投稿推荐服务,以解决现有科技文献检索引擎存在的弊端,如检索不灵活,只能按关键字匹配等,在主题自适应的学术会议检索服务中,用户可以通过研究领域主题关键字来检索到相关的学术会议,与传统的科技文献检索引擎相比,该系统可以根据关键词进行主题自适应的相关性判定过程,并且具有更强的专业性、更高的精确性和权威性。

为实现上述目的,本发明提供了一种主题自适应的学术会议搜索系统,包括数据采集模块、主题发现模块、数据处理模块以及用户接口模块,用户接口模块包括学术会议搜索接口子模块以及个性化投稿推荐接口子模块,数据采集模块包括网络爬虫子模块和数据存储子模块,主题发现模块包括网页信息抽取子模块、文本抽取子模块以及文本挖掘子模块,数据处理模块包括数据库子模块、索引子模块、学术会议评价子模块以及检索子模块,网络爬虫子模块用于从公开免费的信息源爬取包含学术会议和/或期刊信息的网页,数据存储子模块用于将网络爬虫子模块爬取的网页以文件的形式存储在本地,网页信息抽取子模块用于从爬取的网页中抽取出学术会议和/或期刊的信息并存储在文件中,个性化投稿推荐接口子模块用于接收用户上传的论文文档,并将其传递给文本抽取子模块,文本抽取子模块用于解析来自个性化投稿推荐接口子模块的论文文档,以获取文档内容的文本信息,并将文本信息传递给文本挖掘子模块,文本挖掘子模块用于对文本抽取子模块获取的文本信息进行文本挖掘,以获取主题信息,并将主题信息传给检索子模块,数据库子模块用于将网页信息抽取子模块抽取到的学术会议和/或期刊信息存储到数据库中,索引子模块用于利用开源全文检索引擎工具包为存储在数据库中的学术会议和/或期刊信息构建索引,学术会议评价子模块用于计算学术会议和/或期刊的等级值,学术会议搜索接口子模块用于接收用户输入的搜索关键词,并将其传递给检索子模块,检索子模块用于从学术会议搜索接口子模块接收搜索关键词,利用开源全文检索引擎工具包对该搜索关键词进行解析,根据解析结果在索引子模块构建的索引中进行检索以获取对应的学术会议和/或期刊信息作为检索结果,根据学术会议评价子模块计算的等级值对检索结果进行排序,并将排序结果传送给学术会议搜索接口子模块,检索子模块还用于接收来自文本挖掘子模块的主题信息,利用开源全文检索引擎工具包对该主题信息进行解析,根据解析结果在索引子模块构建的索引中进行检索以获取对应的学术会议和/或期刊信息作为检索结果,根据学术会议评价子模块计算的等级值对检索结果进行排序,并将排序结果传送给个性化投稿推荐接口子模块,学术会议搜索接口子模块还用于将来自于检索子模块的排序结果以可视化的形式呈现在Web页面上,供用户查阅,个性化投稿推荐接口子模块还用于将来自于检索子模块的排序结果以可视化的形式呈现在Web页面上,供用户查阅。

网络爬虫子模块利用HttpClient开源Jar包实现对信息源的统一资源标识符进行特征分析,以判断该信息源中是否包括学术会议和/或期刊信息。

网页信息抽取子模块利用HtmlParser开源Jar包实现信息的抽取,信息具体包括标题、举办时间、举办地点、投稿日期、会议主题。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310003000.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top