[发明专利]短文本聚类设备及方法有效

专利信息
申请号: 201110160561.4 申请日: 2011-06-15
公开(公告)号: CN102831119A 公开(公告)日: 2012-12-19
发明(设计)人: 赵凯;胡长建;王大亮;许洪志 申请(专利权)人: 日电(中国)有限公司
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 中科专利商标代理有限责任公司 11021 代理人: 王玮
地址: 100191 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 设备 方法
【说明书】:

技术领域

发明涉及自然语言处理领域,具体涉及一种短文本聚类设备及方法。

背景技术

随着手机短信、微博、搜索引擎、在线广告等的广泛应用,短文本被人们使用的越来越频繁,这些文本通常较短,例如一条手机短信不能超过70个字,搜索引擎返回的结果一般也只有几十个字。

短文本与长文本(例如新闻)有较大的区别。例如,在长文本环境下,一个主题可以被充分地描述,因而人们可以从这个长文本中了解到主题的几乎所有内容。与此不同,由于短文本的字数受到限制,所以通常只对主题的核心内容进行描述,很多相关信息被省略。

传统的文本挖掘的方法通常是针对长文本的,而应用在短文本上会遇到困难,例如聚类。由于实现聚类常常要使用文字的并发信息(同时出现),而短文本中文字的并发信息比长文本少很多,因此聚类效果会受到影响。例如下面两段新闻文本L1和L2:

L1:“清华大学第四教学楼被更名为“真维斯楼”,校园内和互联网上一片奚落之声。反对意见主要是:清华的教学楼和真维斯的服装品牌形象太不搭。从高校楼房冠名的正当程序这一角度看,清华大学显然有可挑剔之处。抛开这一点不谈,单就清华学子所关注的实质问题--教学楼冠名的所谓品牌形象角度而言,“真维斯楼”是否过于折损清华的形象?”

L2:“近日,清华大学一教学楼取名为“真维斯”,在网络上引起了轩然大波。真维斯不是一服装品牌吗?清华大学的教学楼怎么也叫“真维斯”?23日中午,清华大学第四教学楼外墙挂上“真维斯楼”的牌匾。几个字的右下方,还悬挂有另一牌匾,专用来介绍真维斯这一服装品牌。教学楼以企业品牌冠名,引发清华大学学生和网友的争议。有人认为高校过分的商业化,不应该用企业来冠名。而新浪博友Young_pig认为,企业给学校提供了赞助,冠个名不影响学校形象。”

L1和L2因为都有“清华大学,第四教学楼,真维斯,服装,高校,冠名,形象”等词,所以容易判断出它们很相似,可以聚为一类。而以下两个短文本S1和S2就不那么容易聚为一类了,因为它们共有的重要文字只有“清华大学”(“也,了”这种词因为使用非常普遍,所以不太重要,常常在聚类之前去掉):

S1:“听说了吗,真维斯楼,和清华大学的形象也太不搭了”

S2:“不就是一服装品牌吗,清华大学冠名过于商业化了”

为了提高短文本聚类的正确性,现有技术中已经提出采用辅助信息来帮助进行聚类。例如,如果要聚类上述S1和S2这样的短文本,就引入L1和L2这样的长文本作为辅助信息,因为S1和L1比较相似(共享“真维斯,清华大学,形象,不搭”等词),而S2和L2比较相似(共享“服装,清华大学,冠名,商业化”等词)。而且,由于L1和L2比较相似,因此S1和S2也就相似了,可以聚为一类。

参考文献1(XH Phan,LM Nguyen,S Horiguchi.,“Learning to classifty short and sparse text & web with hidden topics from large-scale data collections”,WWW2008)描述了一种根据辅助本文进行聚类的方法。如图1所示,该方法包括以下步骤:

在步骤S100,对辅助文本集合执行主题分析,得到一些主题和对应的词汇。具体地,参考文献1中采用从维基百科(Wikipedia)下载的文本作为辅助信息,形成辅助文本集合。主题分析使用潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)方法。图2示出了LDA的模型。LDA是一种生成模型,其主要思想是模拟文本的生成过程:对每一个词,先从分布中选一个主题,再从主题中选一个词。参考图2,LDA的算法流程包括:

1对每一个主题k∈[1,K],从Dir(β)分布中做一个采样,得到一个主题下的词的分布

2对每一个文本m∈[1,M],

2.1从Dir(α)分布做一个采样,得到一个主题分布

2.2对每一个词n,

2.2.1从多项式分布中做一个采样,得到一个主题zm,n

2.2.2从多项式分布中做一个采样,得到一个词wm,n

算法1-LDA

其中,α的值表示各个话题在取样之前的权重分布,β的值表示各个主题词的先验分布。它们是预先确定的参数,称为超参数。

LDA的任务是估计参数和θd。其中,所有显变量和隐变量的联合分布密度如下:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于日电(中国)有限公司,未经日电(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110160561.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top