[发明专利]一种基于维基语义匹配的文档分类方法及系统有效

专利信息
申请号: 201610712106.3 申请日: 2016-08-23
公开(公告)号: CN106372122B 公开(公告)日: 2018-04-10
发明(设计)人: 吴宗大;徐湖鹏 申请(专利权)人: 温州大学瓯江学院
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 武汉臻诚专利代理事务所(普通合伙)42233 代理人: 仲晖
地址: 325035 浙江省温州市瓯海经济*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于维基语义匹配的文档分类方法及系统。所述方法包括以下步骤(1)对于文档集中每一个文本文档D,利用关键词匹配获得所述文本文档的关键词集合,并利用匹配规则从维基语义参考空间中匹配得到所述文本文档的相关的参考概念集合;(2)根据文本文档的关键词集合生成其关键词向量,根据所述关键词向量以及其参考概念集合生成其概念向量;(3)根据概念向量和关键词向量,计算所述待分类的多个文本文档集中任意两个文本文档之间的综合相似性;(4)根据任意两个文本文档之间的综合相似性进行分类。所述系统包括第一至第四模块。本发明克服维基语义匹配方法所面临的有效性和高效性之间的矛盾,提供了一种高效的在线文档分类方法。
搜索关键词: 一种 基于 语义 匹配 文档 分类 方法 系统
【主权项】:
一种基于维基语义匹配的文档分类方法,其特征在于,包括以下步骤:(1)对于待分类的多个文本文档形成的文档集对于其中每一个文本文档利用关键词匹配获得所述文本文档的关键词集合,并利用匹配规则从预先设置的维基语义参考空间中匹配得到所述文本文档的相关的参考概念集合;所述维基语义参考空间按照如下方法构建:从维基百科数据库中抽取出概念实体,记作:对于其中每一个概念按照以下步骤处理,以构建维基语义参考空间;A、单词分割:使用NLTK分词器将其中所述概念表示成一个独立单词集合;B、去停用词:将步骤A获得的每个概念对应的单词集合去除停用词,从而将每个概念表示成一个独立具有含义的单词集合;所述停用词为NLTK所列出的停用词表中单独使用不携带实体信息仅起到语法作用的词汇;C、词干化:采用Snowball框架将步骤B获得的每个概念对应的独立具有含义的单词集合中的每个单词转化为其词干,从而将每个概念表示为一个关键词集合,可记作:D、映射:根据步骤C中获得的每个概念对应的关键词集合,将所述概念映射为一个关键词向量,记作:其中为所述维基概念各个关键词k的TF‑IDF值,按照如下方法计算:其中表示关键词k在维基概念中的出现次数;idf(k)表示概念集中包含关键词k的维基概念数,即:(2)根据步骤(1)中获得的所述文本文档的关键词集合生成其关键词向量,根据所述关键词向量以及步骤(1)中获得的所述文本文档的参考概念集合生成其概念向量;(3)根据步骤(2)中获得的概念向量和关键词向量,计算所述待分类的多个文本文档集中任意两个文本文档之间的综合相似性;(4)根据步骤(3)中任意两个文本文档之间的综合相似性,将综合相似性超过预设的综合相似性阈值的文本文档分作一类,从而对所述待分类的文本文档集进行分类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于温州大学瓯江学院,未经温州大学瓯江学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610712106.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top