[发明专利]短文本聚类设备及方法有效

申请号：	201110160561.4	申请日：	2011-06-15
公开（公告）号：	CN102831119A	公开（公告）日：	2012-12-19
发明（设计）人：	赵凯;胡长建;王大亮;许洪志	申请（专利权）人：	日电（中国）有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	中科专利商标代理有限责任公司 11021	代理人：	王玮
地址：	100191 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本设备方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及自然语言处理领域，具体涉及一种短文本聚类设备及方法。

背景技术

随着手机短信、微博、搜索引擎、在线广告等的广泛应用，短文本被人们使用的越来越频繁，这些文本通常较短，例如一条手机短信不能超过70个字，搜索引擎返回的结果一般也只有几十个字。

短文本与长文本(例如新闻)有较大的区别。例如，在长文本环境下，一个主题可以被充分地描述，因而人们可以从这个长文本中了解到主题的几乎所有内容。与此不同，由于短文本的字数受到限制，所以通常只对主题的核心内容进行描述，很多相关信息被省略。

传统的文本挖掘的方法通常是针对长文本的，而应用在短文本上会遇到困难，例如聚类。由于实现聚类常常要使用文字的并发信息(同时出现)，而短文本中文字的并发信息比长文本少很多，因此聚类效果会受到影响。例如下面两段新闻文本L1和L2：

L1：“清华大学第四教学楼被更名为“真维斯楼”，校园内和互联网上一片奚落之声。反对意见主要是：清华的教学楼和真维斯的服装品牌形象太不搭。从高校楼房冠名的正当程序这一角度看，清华大学显然有可挑剔之处。抛开这一点不谈，单就清华学子所关注的实质问题--教学楼冠名的所谓品牌形象角度而言，“真维斯楼”是否过于折损清华的形象？”

L2：“近日，清华大学一教学楼取名为“真维斯”，在网络上引起了轩然大波。真维斯不是一服装品牌吗？清华大学的教学楼怎么也叫“真维斯”？23日中午，清华大学第四教学楼外墙挂上“真维斯楼”的牌匾。几个字的右下方，还悬挂有另一牌匾，专用来介绍真维斯这一服装品牌。教学楼以企业品牌冠名，引发清华大学学生和网友的争议。有人认为高校过分的商业化，不应该用企业来冠名。而新浪博友Young_pig认为，企业给学校提供了赞助，冠个名不影响学校形象。”

L1和L2因为都有“清华大学，第四教学楼，真维斯，服装，高校，冠名，形象”等词，所以容易判断出它们很相似，可以聚为一类。而以下两个短文本S1和S2就不那么容易聚为一类了，因为它们共有的重要文字只有“清华大学”(“也，了”这种词因为使用非常普遍，所以不太重要，常常在聚类之前去掉)：

S1：“听说了吗，真维斯楼，和清华大学的形象也太不搭了”

S2：“不就是一服装品牌吗，清华大学冠名过于商业化了”

为了提高短文本聚类的正确性，现有技术中已经提出采用辅助信息来帮助进行聚类。例如，如果要聚类上述S1和S2这样的短文本，就引入L1和L2这样的长文本作为辅助信息，因为S1和L1比较相似(共享“真维斯，清华大学，形象，不搭”等词)，而S2和L2比较相似(共享“服装，清华大学，冠名，商业化”等词)。而且，由于L1和L2比较相似，因此S1和S2也就相似了，可以聚为一类。

参考文献1(XH Phan，LM Nguyen，S Horiguchi.，“Learning to classifty short and sparse text & web with hidden topics from large-scale data collections”，WWW2008)描述了一种根据辅助本文进行聚类的方法。如图1所示，该方法包括以下步骤：

在步骤S100，对辅助文本集合执行主题分析，得到一些主题和对应的词汇。具体地，参考文献1中采用从维基百科(Wikipedia)下载的文本作为辅助信息，形成辅助文本集合。主题分析使用潜在狄利克雷分配(Latent Dirichlet Allocation，LDA)方法。图2示出了LDA的模型。LDA是一种生成模型，其主要思想是模拟文本的生成过程：对每一个词，先从分布中选一个主题，再从主题中选一个词。参考图2，LDA的算法流程包括：

1对每一个主题k∈[1，K]，从Dir(β)分布中做一个采样，得到一个主题下的词的分布

2对每一个文本m∈[1，M]，

2.1从Dir(α)分布做一个采样，得到一个主题分布

2.2对每一个词n，

2.2.1从多项式分布中做一个采样，得到一个主题z_m，n。

2.2.2从多项式分布中做一个采样，得到一个词w_m，n。

算法1-LDA

其中，α的值表示各个话题在取样之前的权重分布，β的值表示各个主题词的先验分布。它们是预先确定的参数，称为超参数。

LDA的任务是估计参数和θ_d。其中，所有显变量和隐变量的联合分布密度如下：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于日电（中国）有限公司，未经日电（中国）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】