[发明专利]一种基于多特征融合的网络学术报告分类方法有效

专利信息
申请号: 201611089615.1 申请日: 2016-12-01
公开(公告)号: CN106407482B 公开(公告)日: 2019-06-18
发明(设计)人: 薛峰;夏帅;王健伟;许剑东;王东 申请(专利权)人: 合肥工业大学
主分类号: G06F16/35 分类号: G06F16/35;G06F17/27;G06K9/62
代理公司: 安徽省合肥新安专利代理有限责任公司 34101 代理人: 陆丽莉;何梅生
地址: 230009 安*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种多特征融合的网络学术报告分类方法;其特征包括:1、收集并建立学术报告数据库,根据数据库中学术报告的主办单位信息把学术报告粗分到与主办单位同性质的某些学科中;2、建立全国各领域研究人员数据库,与学术报告中的报告人信息匹配,确定分类;3、提取出学术报告数据标题中的关键词;4、对提取出的关键词进行同义词特征扩展;5、同义词扩展后对得到的特征进行文本分类;6、综合所述分类结果得到学术报告的最终分类结果。本发明通过多因素的方法对学术报告进行分类,从而保证分类的速度以及精度。
搜索关键词: 一种 基于 特征 融合 网络 学术报告 分类 方法
【主权项】:
1.一种基于多特征融合的网络学术报告分类方法,其特征是按如下步骤进行:步骤1、收集并建立学术报告数据库;步骤1.1、利用爬虫工具收集网络学术报告的信息并作为相应条目,所述网络学术报告的信息包括:报告标题、报告时间、报告地点、报告人、报告人简介、报告简介和报告举办单位;步骤1.2、添加学术报告所属的学科分类信息的条目,从而建立学术报告数据库;步骤2、获得第一匹配结果集合;步骤2.1、收集并建立学院名称集合及其包含的各个学科名称集合;步骤2.2、将所述报告举办单位与所述学院名称集合中的各个学院进行匹配,从而获得第一匹配结果集合;所述第一匹配结果集合为所述报告举办单位所对应的学院所包含的所有学科;步骤3、获得第二匹配结果集合;步骤3.1、收集并建立研究人员集合及其对应的研究领域集合;步骤3.2、将所述报告人与所述研究人员集合中的各个研究人员姓名进行匹配,从而获得第二匹配结果集合;所述第二匹配结果集合为所述报告人所属的研究领域;步骤4、利用中文关键词提取算法对所述报告标题进行提取,获得所述报告标题的关键词;步骤5、使用同义词扩展算法对所提取的关键词进行同义词扩展,得到所述关键词的近义词特征集合;步骤6、使用SVM分类器对所述关键词及其近义词特征集合进行文本分类,得到第一分类结果;所述第一分类结果为所述关键词及其近义词所对应的第一学科集合;所述第一学科集合中包含各个学科名称及其相应的概率;步骤7、使用朴素贝叶斯分类器NB对所述关键词及其近义词特征集合进行文本分类,得到第二分类结果;所述第二分类结果为所述关键词及其近义词所对应的第二学科集合;所述第二学科集合中包含各个学科名称及其相应的概率;步骤8、得到初步分类结果集合;步骤8.1、从所述第一分类结果和第二分类结果分别选出概率最高的前2个学科所对应的概率,分别记为第一SVM概率和第二SVM概率、第一NB概率和第二NB概率;步骤8.2、设置一个置信度值C;步骤8.3、判断第一SVM概率和第二SVM概率之差≥置信度值C是否成立,若成立,则表将所述第一SVM概率所对应的学科作为第一初步分类结果;否则,则将所述第一SVM概率和第二SVM概率所对应的学科作为第一初步分类结果;步骤8.4、判断第一NB概率和第二NB概率之差≥置信度值C是否成立,若成立,则表将所述第一NB概率所对应的学科作为第二初步分类结果;否则,则将所述第一NB概率和第二NB概率所对应的学科作为第二初步分类结果;步骤8.5、将所述第一初步分类结果和第二初步分类结果取并集,得到初步分类结果集合;步骤9、得到最终分类结果步骤9.1、为所述第一匹配结果集合、第二匹配结果集合和初步分类结果集合设定相应的权重,记为X、Y、Z;步骤9.2、将所述第一匹配结果集合、第二匹配结果集合和初步分类结果集合取并集,得到综合分类结果集合;步骤9.3、统计所述综合分类结果集合中的每个学科分别在所述第一匹配结果集合、第二匹配结果集合和初步分类结果集合中相应权重的总和;步骤9.4、以权重的总和最高的学科作为所述网络学术报告的最终分类结果并用于预告和推荐。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201611089615.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top