[发明专利]一种主题自适应的学术会议搜索系统有效

专利信息
申请号: 201310003000.2 申请日: 2013-01-05
公开(公告)号: CN103049575A 公开(公告)日: 2013-04-17
发明(设计)人: 金海;赵峰;孙正;聂昶 申请(专利权)人: 华中科技大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 华中科技大学专利中心 42201 代理人: 朱仁玲
地址: 430074 湖北*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 主题 自适应 学术会议 搜索 系统
【权利要求书】:

1.一种主题自适应的学术会议搜索系统,包括数据采集模块、主题发现模块、数据处理模块以及用户接口模块,其特征在于,

用户接口模块包括学术会议搜索接口子模块以及个性化投稿推荐接口子模块;

数据采集模块包括网络爬虫子模块和数据存储子模块;

主题发现模块包括网页信息抽取子模块、文本抽取子模块以及文本挖掘子模块;

数据处理模块包括数据库子模块、索引子模块、学术会议评价子模块以及检索子模块;

网络爬虫子模块用于从公开免费的信息源爬取包含学术会议和/或期刊信息的网页;

数据存储子模块用于将网络爬虫子模块爬取的网页以文件的形式存储在本地;

网页信息抽取子模块用于从爬取的网页中抽取出学术会议和/或期刊的信息并存储在文件中;

个性化投稿推荐接口子模块用于接收用户上传的论文文档,并将其传递给文本抽取子模块;

文本抽取子模块用于解析来自个性化投稿推荐接口子模块的论文文档,以获取文档内容的文本信息,并将文本信息传递给文本挖掘子模块;

文本挖掘子模块用于对文本抽取子模块获取的文本信息进行文本挖掘,以获取主题信息,并将主题信息传给检索子模块;

数据库子模块用于将网页信息抽取子模块抽取到的学术会议和/或期刊信息存储到数据库中;

索引子模块用于利用开源全文检索引擎工具包为存储在数据库中的学术会议和/或期刊信息构建索引;

学术会议评价子模块用于计算学术会议和/或期刊的等级值;

学术会议搜索接口子模块用于接收用户输入的搜索关键词,并将其传递给检索子模块;

检索子模块用于从学术会议搜索接口子模块接收搜索关键词,利用开源全文检索引擎工具包对该搜索关键词进行解析,根据解析结果在索引子模块构建的索引中进行检索以获取对应的学术会议和/或期刊信息作为检索结果,根据学术会议评价子模块计算的等级值对检索结果进行排序,并将排序结果传送给学术会议搜索接口子模块;

检索子模块还用于接收来自文本挖掘子模块的主题信息,利用开源全文检索引擎工具包对该主题信息进行解析,根据解析结果在索引子模块构建的索引中进行检索以获取对应的学术会议和/或期刊信息作为检索结果,根据学术会议评价子模块计算的等级值对检索结果进行排序,并将排序结果传送给个性化投稿推荐接口子模块;

学术会议搜索接口子模块还用于将来自于检索子模块的排序结果以可视化的形式呈现在Web页面上,供用户查阅;

个性化投稿推荐接口子模块还用于将来自于检索子模块的排序结果以可视化的形式呈现在Web页面上,供用户查阅。

2.根据权利要求1所述的学术会议检索系统,其特征在于,网络爬虫子模块利用HttpClient开源Jar包实现对信息源的统一资源标识符进行特征分析,以判断该信息源中是否包括学术会议和/或期刊信息。

3.根据权利要求1所述的学术会议检索系统,其特征在于,网页信息抽取子模块利用HtmlParser开源Jar包实现信息的抽取,信息具体包括标题、举办时间、举办地点、投稿日期、会议主题。

4.根据权利要求3所述的学术会议检索系统,其特征在于,网页信息抽取子模块首先构建节点过滤器对包含学术会议和/或期刊信息的网页进行解析,得到节点队列,并进一步通过解析器解析出属性节点,再通过正则表达式或条件随机场的方法解析出属性值,最后将属性值分类并存储在文件中。

5.根据权利要求1所述的学术会议检索系统,其特征在于,文本挖掘子模块是通过机器学习、文本聚类等方法实现文本挖掘,具体为:对文本抽取子模块获取的文本信息进行文本预处理,包括特征提取、特征选择,然后进行文本抽取,抽取的信息包括术语、主题词、关键词等,最后通过聚类分析和主题聚类发现主题信息。

6.根据权利要求1所述的学术会议检索系统,其特征在于,数据库子模块采用JDBC、ODBC、ADO、OLE DB、JDBC-ODBC桥的连接方式将抽取到的学术会议和/或期刊信息存储到数据库中;

数据库包括Access、MySQL、Microsoft SQL Server、DB2、Oracle。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310003000.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top