[发明专利]一种基于维基语义匹配的文档分类方法及系统有效
申请号: | 201610712106.3 | 申请日: | 2016-08-23 |
公开(公告)号: | CN106372122B | 公开(公告)日: | 2018-04-10 |
发明(设计)人: | 吴宗大;徐湖鹏 | 申请(专利权)人: | 温州大学瓯江学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 武汉臻诚专利代理事务所(普通合伙)42233 | 代理人: | 仲晖 |
地址: | 325035 浙江省温州市瓯海经济*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于维基语义匹配的文档分类方法及系统。所述方法包括以下步骤(1)对于文档集中每一个文本文档D,利用关键词匹配获得所述文本文档的关键词集合,并利用匹配规则从维基语义参考空间中匹配得到所述文本文档的相关的参考概念集合;(2)根据文本文档的关键词集合生成其关键词向量,根据所述关键词向量以及其参考概念集合生成其概念向量;(3)根据概念向量和关键词向量,计算所述待分类的多个文本文档集中任意两个文本文档之间的综合相似性;(4)根据任意两个文本文档之间的综合相似性进行分类。所述系统包括第一至第四模块。本发明克服维基语义匹配方法所面临的有效性和高效性之间的矛盾,提供了一种高效的在线文档分类方法。 | ||
搜索关键词: | 一种 基于 语义 匹配 文档 分类 方法 系统 | ||
【主权项】:
一种基于维基语义匹配的文档分类方法,其特征在于,包括以下步骤:(1)对于待分类的多个文本文档形成的文档集对于其中每一个文本文档利用关键词匹配获得所述文本文档的关键词集合,并利用匹配规则从预先设置的维基语义参考空间中匹配得到所述文本文档的相关的参考概念集合;所述维基语义参考空间按照如下方法构建:从维基百科数据库中抽取出概念实体,记作:对于其中每一个概念按照以下步骤处理,以构建维基语义参考空间;A、单词分割:使用NLTK分词器将其中所述概念表示成一个独立单词集合;B、去停用词:将步骤A获得的每个概念对应的单词集合去除停用词,从而将每个概念表示成一个独立具有含义的单词集合;所述停用词为NLTK所列出的停用词表中单独使用不携带实体信息仅起到语法作用的词汇;C、词干化:采用Snowball框架将步骤B获得的每个概念对应的独立具有含义的单词集合中的每个单词转化为其词干,从而将每个概念表示为一个关键词集合,可记作:D、映射:根据步骤C中获得的每个概念对应的关键词集合,将所述概念映射为一个关键词向量,记作:其中为所述维基概念各个关键词k的TF‑IDF值,按照如下方法计算:其中表示关键词k在维基概念中的出现次数;idf(k)表示概念集中包含关键词k的维基概念数,即:(2)根据步骤(1)中获得的所述文本文档的关键词集合生成其关键词向量,根据所述关键词向量以及步骤(1)中获得的所述文本文档的参考概念集合生成其概念向量;(3)根据步骤(2)中获得的概念向量和关键词向量,计算所述待分类的多个文本文档集中任意两个文本文档之间的综合相似性;(4)根据步骤(3)中任意两个文本文档之间的综合相似性,将综合相似性超过预设的综合相似性阈值的文本文档分作一类,从而对所述待分类的文本文档集进行分类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于温州大学瓯江学院,未经温州大学瓯江学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610712106.3/,转载请声明来源钻瓜专利网。
- 上一篇:缝纫机的蜗杆机构
- 下一篇:一种用于纺织品的加湿装置