[发明专利]一种基于维基语义匹配的文档分类方法及系统有效
申请号: | 201610712106.3 | 申请日: | 2016-08-23 |
公开(公告)号: | CN106372122B | 公开(公告)日: | 2018-04-10 |
发明(设计)人: | 吴宗大;徐湖鹏 | 申请(专利权)人: | 温州大学瓯江学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 武汉臻诚专利代理事务所(普通合伙)42233 | 代理人: | 仲晖 |
地址: | 325035 浙江省温州市瓯海经济*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 匹配 文档 分类 方法 系统 | ||
技术领域
本发明属于互联网技术领域,更具体地,涉及一种基于维基语义匹配的文档分类方法及系统。
背景技术
随着万维网技术的发展,在线文本文档数量的爆炸式增长急需高效文本分类算法,以方便用户实现对在线文本文档的快速导航和浏览。传统的文本文档分类方法采用的通常是“关键词文本匹配技术”,其基本思想是:首先,将文本文档表示成关键词的加权出现频度向量,然后,以关键词向量相关度作为文本文档之间的相似性度量;即文本文档之间的相似度通过分析文本文档之间的共同关键字进行度量。然而,关键词文本匹配技术由于仅仅考虑了文本文档关键词的表面文本信息,而没有考虑关键词的背后语义信息,导致了诸多问题,如多义词引发语义混淆、同义词引发的内容失配等,从而严重制约了该项技术的有效性。为此,学者们提出了“维基语义匹配技术”,其基本思想是:利用维基百科丰富的语义概念作为中间参考空间,将文本文档从关键字空间中的一个关键词向量映射为维基参考空间中的一个概念向量(每个元素对应一个维基概念),以获取文本文档背后所隐藏的语义信息。维基百科相比于其它知识本体具有以下优点:(1)宽广的知识概念覆盖范围,易于为文本文档确定相关的参考概念;(2)维基概念能够及时有效更新,使得知识始终保持最新;(3)包含许多其它知识库所没有的最新词汇。正是这些优点使得维基语义匹配技术能有效地解决关键字文本匹配技术所遇到的语义失配问题,从而提高了文本文档相似度量的准确性。以下,我们通过一个具体例子来展示维基语义匹配相比于关键词匹配的优越性。给定三个短文本文档:
文本文档一:“Puma,an American Feline Resembling a Lion(美洲豹,一种类似狮子的美洲猫科动物)”
文本文档二:“Puma,a Famous Sports Brand from German(彪马,来自于德国的一个著名运动品牌)”
文本文档三:“Zoo,the Animal World(动物园,动物世界)”
由于多义词引发的语义混淆问题,关键字匹配技术会认为文本文档一和文本文档二间的相似性要高于文本文档一和文本文档三间的相似性,因为文本文档一和文本文档三均蕴含同一关键词Puma。在维基匹配技术中,利用关键词匹配技术,三个文本文档首先会被映射为维基参考空间中三个概念向量。由于文本文档一中存在Feline和Lion等关键词,因此与动物相关的维基概念将在文本文档一的概念向量中拥有较高的相应元素值。而这些维基概念在文本文档三的概念向量中也将同样拥有较高的元素值,但在文本文档二向量中却拥有较低的元素值,因为文本文档二不包含动物相关词。所以,基于概念向量进行文本文档相似性度量的维基语义匹配技术得出结论:相比于文本文档二,文本文档三与文本文档一拥有更高的相似性。可以看出,维基匹配技术利用维基语义知识来分析文本文档文本背后所蕴含的语义信息,较好地解决了关键字匹配技术所遇到的语义失配问题,从而提高了文本文档相似性度量的准确性,进而提高了文本文档分类性能。此外,许多研究成果也验证了维基语义匹配的有效性。
然而,由于维基百科包含非常多概念文章,数量在千万级别,因而在文本文档的概念向量映射时,需要进行大量的全文关键词匹配操作,极大地影响了维基语义匹配技术的执行性能,从而严重制约了它在在线文本文档分类应用环境中的实际效用。为了提高计算效率,一种直接的做法是从维基百科中挑选出一小部分概念组建一个小规模的维基参考空间,以减少全文关键词匹配操作的次数。例如,文献提出使用1000个覆盖各种主题的“特征概念”组建维基参考空间。然而,这种策略会极大地制约参考空间的知识语义覆盖范围,使得许多待分类文本文档难以在参考空间里找到相关参考概念,导致文本文档概念向量的元素值均为零,从而降低了文本文档相似度量的准确性。实际上,如果仅使用维基百科的部分知识概念,那么维基百科的许多优点尤其是拥有宽广的知识覆盖范围,也将不复存在。总而言之,维基语义匹配技术存在以下矛盾:一方面,若为了提高计算效率,而如果挑选较少的维基概念组建参考空间,则又难以保证语义知识覆盖范围,从而影响文本文档相似性度量的准确性;另一方面,若为了确保知识覆盖范围,以提高相似度量性能,而挑选较多的维基概念组建参考空间,则又将严重降低文本文档分类的执行效率。
发明内容
为了克服维基语义匹配方法所面临的有效性和高效性之间的矛盾,本发明提供了一种基于维基语义匹配的文档分类方法及系统,其目的在于通过结合关键词和维基语义匹配,高效地计算文档之间的相似性从而对文档进行分类,由此解决现有文档分类技术效率低或者不准确的技术问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于温州大学瓯江学院,未经温州大学瓯江学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610712106.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:缝纫机的蜗杆机构
- 下一篇:一种用于纺织品的加湿装置