[发明专利]短文本聚类设备及方法有效
申请号: | 201110160561.4 | 申请日: | 2011-06-15 |
公开(公告)号: | CN102831119A | 公开(公告)日: | 2012-12-19 |
发明(设计)人: | 赵凯;胡长建;王大亮;许洪志 | 申请(专利权)人: | 日电(中国)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 王玮 |
地址: | 100191 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 设备 方法 | ||
技术领域
本发明涉及自然语言处理领域,具体涉及一种短文本聚类设备及方法。
背景技术
随着手机短信、微博、搜索引擎、在线广告等的广泛应用,短文本被人们使用的越来越频繁,这些文本通常较短,例如一条手机短信不能超过70个字,搜索引擎返回的结果一般也只有几十个字。
短文本与长文本(例如新闻)有较大的区别。例如,在长文本环境下,一个主题可以被充分地描述,因而人们可以从这个长文本中了解到主题的几乎所有内容。与此不同,由于短文本的字数受到限制,所以通常只对主题的核心内容进行描述,很多相关信息被省略。
传统的文本挖掘的方法通常是针对长文本的,而应用在短文本上会遇到困难,例如聚类。由于实现聚类常常要使用文字的并发信息(同时出现),而短文本中文字的并发信息比长文本少很多,因此聚类效果会受到影响。例如下面两段新闻文本L1和L2:
L1:“清华大学第四教学楼被更名为“真维斯楼”,校园内和互联网上一片奚落之声。反对意见主要是:清华的教学楼和真维斯的服装品牌形象太不搭。从高校楼房冠名的正当程序这一角度看,清华大学显然有可挑剔之处。抛开这一点不谈,单就清华学子所关注的实质问题--教学楼冠名的所谓品牌形象角度而言,“真维斯楼”是否过于折损清华的形象?”
L2:“近日,清华大学一教学楼取名为“真维斯”,在网络上引起了轩然大波。真维斯不是一服装品牌吗?清华大学的教学楼怎么也叫“真维斯”?23日中午,清华大学第四教学楼外墙挂上“真维斯楼”的牌匾。几个字的右下方,还悬挂有另一牌匾,专用来介绍真维斯这一服装品牌。教学楼以企业品牌冠名,引发清华大学学生和网友的争议。有人认为高校过分的商业化,不应该用企业来冠名。而新浪博友Young_pig认为,企业给学校提供了赞助,冠个名不影响学校形象。”
L1和L2因为都有“清华大学,第四教学楼,真维斯,服装,高校,冠名,形象”等词,所以容易判断出它们很相似,可以聚为一类。而以下两个短文本S1和S2就不那么容易聚为一类了,因为它们共有的重要文字只有“清华大学”(“也,了”这种词因为使用非常普遍,所以不太重要,常常在聚类之前去掉):
S1:“听说了吗,真维斯楼,和清华大学的形象也太不搭了”
S2:“不就是一服装品牌吗,清华大学冠名过于商业化了”
为了提高短文本聚类的正确性,现有技术中已经提出采用辅助信息来帮助进行聚类。例如,如果要聚类上述S1和S2这样的短文本,就引入L1和L2这样的长文本作为辅助信息,因为S1和L1比较相似(共享“真维斯,清华大学,形象,不搭”等词),而S2和L2比较相似(共享“服装,清华大学,冠名,商业化”等词)。而且,由于L1和L2比较相似,因此S1和S2也就相似了,可以聚为一类。
参考文献1(XH Phan,LM Nguyen,S Horiguchi.,“Learning to classifty short and sparse text & web with hidden topics from large-scale data collections”,WWW2008)描述了一种根据辅助本文进行聚类的方法。如图1所示,该方法包括以下步骤:
在步骤S100,对辅助文本集合执行主题分析,得到一些主题和对应的词汇。具体地,参考文献1中采用从维基百科(Wikipedia)下载的文本作为辅助信息,形成辅助文本集合。主题分析使用潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)方法。图2示出了LDA的模型。LDA是一种生成模型,其主要思想是模拟文本的生成过程:对每一个词,先从分布中选一个主题,再从主题中选一个词。参考图2,LDA的算法流程包括:
1对每一个主题k∈[1,K],从Dir(β)分布中做一个采样,得到一个主题下的词的分布
2对每一个文本m∈[1,M],
2.1从Dir(α)分布做一个采样,得到一个主题分布
2.2对每一个词n,
2.2.1从多项式分布中做一个采样,得到一个主题zm,n。
2.2.2从多项式分布中做一个采样,得到一个词wm,n。
算法1-LDA
其中,α的值表示各个话题在取样之前的权重分布,β的值表示各个主题词的先验分布。它们是预先确定的参数,称为超参数。
LDA的任务是估计参数和θd。其中,所有显变量和隐变量的联合分布密度如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于日电(中国)有限公司,未经日电(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110160561.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种灵活部署搜索的方法
- 下一篇:一种非接触式手势控制设备及其锁定和解锁方法