[发明专利]用于对文本进行分类的方法有效

申请号：	201380024544.5	申请日：	2013-05-15
公开（公告）号：	CN104285224B	公开（公告）日：	2018-11-16
发明（设计）人：	J·R·赫尔歇;J·勒鲁克斯	申请（专利权）人：	三菱电机株式会社
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京三友知识产权代理有限公司 11127	代理人：	吕俊刚
地址：	日本***	国省代码：	日本;JP
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用于文本进行分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

通过根据文本确定文本特征并将文本特征变换为主题特征来对该文本进行分类。使用判别主题模型针对每一个主题特征来确定分数。该模型包括对主题特征进行操作的分类器，其中，通过变换根据文本特征来确定主题特征，并且变换被优化以最大化相对于不正确的类的分数的正确的类的分数。接着，选择针对文本具有最高分数的类标签。在按层次结构组织类的情况下，判别主题模型适用于根据前面的级别调节的每一个级别的类，并且跨级别组合分数以评估最高得分的类标签。

技术领域

本发明总体上涉及一种用于对文本进行分类的方法，并且更具体地，涉及针对大量的类别对文本进行分类。

背景技术

文本分类对于在诸如用于命令和控制的用户接口这样的自然语言处理中的许多任务来说是一个重要的问题。在这样的方法中，从文本的许多类得到的训练数据被用于优化由用于估计针对该文本的最可能的类的方法所使用的参数。

用于文本分类的多项逻辑斯蒂回归(MLR)分类器。

文本分类根据输入文本x来估计类y，其中y是类的标签。该文本能够从语音信号得到。

在现有技术的多项逻辑斯蒂回归中，使用以下的特征函数来对关于输入文本的信息进行编码：

其通常被这样定义：

换句话说，如果项t_j包含在文本x中，则特征是1，类标签y等于类别I_k。

用于分类的模型是如下形式的条件指数模型：

其中，

并且λ_j,k和Λ是分类参数。