[发明专利]基于偏最小二乘的文本语义提取方法无效

申请号：	200810036392.1	申请日：	2008-04-21
公开（公告）号：	CN101261624A	公开（公告）日：	2008-09-10
发明（设计）人：	曾雪强;李国正	申请（专利权）人：	上海大学
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	上海上大专利事务所	代理人：	何文欣
地址：	200444***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于最小文本语义提取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种文本语义提取方法，特别是一种利用偏最小二乘分析文本结构的文档语义提取方法。

背景技术

对于文本的语义分析对于提高文档分析的性能具有十分显著的效果。特别是随着信息化和实际生活中各类电子文档的大量增加，文档的自动语义分析在有着越来越重要的应用价值。比如数字图书馆、信息检索、文本分类、垃圾邮件过滤等等应用问题，语义知识的分析均是相关的关键技术之一。

文本语义提取的方法分为两大类：手工标定和自动抽取。手工标定的方法又可以分为完全手工和半手工标定。其特点是准确度比较高，但需要领域专家的参与。由于领域专家知识的获取有很大的成本，限制了这种方法的应用。自动抽取的方法利用文档集内在的统计特性，提取潜在语义。语义的提取过程自动完成，不需要领域专家的参与；其缺点是提取出的语义的可解释性稍差。

自动语义提取技术在实际问题中已有比较广泛的应用，但常规方法在语义提取过程中并未考虑类标信息。比如最常用的潜在语义索引(Latent Semantic Indexing：LSI)方法，利用奇异值分解得到对原始文档集具有最大解释能力的潜在语义，而并未利用任何有监督问题中的类标信息。

在有监督问题中，如何快速有效的提取出文档的潜在语义是自动语义提取技术的难点之一。

发明内容

本发明的目的在于提供一种适用于有监督问题的基于偏最小二乘的文本语义提取方法，能可靠、快速的提取文档语义。

为了实现这个目的，本发明的构思是：文本先采用向量空间模型表示成向量形式，这样可以得到文档集矩阵X和其对应的类标信息矩阵Y，然后利用偏最小二乘模型对X和Y进行分析，抽取出文档的潜在语义，最后在提取出的语义空间进行文本的各种分析。

根据上述的发明构思，本发明采用下述技术方案：

一种基于偏最小二乘的文本语义提取方法，其特征在于将文档在向量空间模型表示后，利用偏最小二乘模型对数据进行分析，提取出对原始数据具有最大表示能力同时又与类标信息相关的潜在语义，而后在该语义空间上进行文档分析。其具体操作步骤如下：

(1)文档预处理，包括中文分词(将连续的文档拆分为一个个独立的词，英文文档可省略本步骤)和去除停用词(如中文的“的”、“了”，英文的“the”、“a”等无具体意义的词)两个步骤；

(2)统计词频，建立文档的在向量空间模型下的向量表示，得到数据矩阵X和类别矩阵Y；

(3)基于矩阵X和矩阵Y，进行偏最小二乘分析，得到各个潜在语义的投影方向；

(4)利用得到的语义投影方向，得到待分析文档在语义空间上的语义表示；

(5)在新的语义空间下，对文档进行各种分析。