[发明专利]一种基于混合距离依赖中餐馆过程的层次化主题建模方法在审
| 申请号: | 201410706246.0 | 申请日: | 2014-11-28 |
| 公开(公告)号: | CN104484346A | 公开(公告)日: | 2015-04-01 |
| 发明(设计)人: | 汤斯亮;吴飞;李斯;鲁伟明;邵健;庄越挺 | 申请(专利权)人: | 浙江大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 张法高 |
| 地址: | 310027 浙*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 混合 距离 依赖 餐馆 过程 层次 主题 建模 方法 | ||
技术领域
本发明涉及主题模型,尤其涉及一种基于混合距离依赖中餐馆过程的层次化主题建模方法。
背景技术
随着互联网技术的飞速发展,产生了海量的关系错综复杂的文本数据,这让将这些文本以有意义的方式组织并展现出来成为了巨大的挑战。在很多应用领域,如新闻文本分析,为了提取出关键事件并生成相关专题,往往需要通过人工的阅读、筛选、排序和组合等费时费力的工作。
很多研究人员都尝试通过开发一些自动文本分析算法,用机器去发掘关键事件和隐藏的主题,以此来优化上述过程。其中,一些如LDA(Latent Dirichlet Allocation,隐狄利克雷分布)这样的统计主题模型以及它们的一些变体都是比较有效的一些方法。它们都基于词袋(bag-of-words)假设,而且认为“文本—主题”、“主题—词”服从“狄利克雷—多项式”共轭先验分布,这也就意味着每篇文本之间是条件独立的。
上述假设完全忽视了文本之间在时间和空间上的相互依赖关系,这就导致这些方法无法生成关键事件序列。同时LDA无法区分不同粒度的主题。因此,人们陆续提出了一些层次主题建模方法,如hLDA、nDP、TSSB等模型来解决主题粒度的问题,这些模型采用nDP先验或nCRP先验,可以产生层次化的多粒度的主题。
在应用主题模型处理新闻文本的过程中,往往很难将算法得到的主题与现实世界中的话题或事件对应起来。例如,一个真实的编辑在整理一个事件材料的时候,他需要将包含事件要素(如时间、地点、人物等)的文本组织在一起。然而很多主题模型产生的主题往往不能覆盖全部要素。为了能够更加适用于实际应用场景,一些主题模型甚至又引入了如时间戳、作者、地理信息等元数据信息。但它们的副作用也很快就显现出来了:1)监督信息并不总是可以得到的;2)向模型中引入过多的因子会导致建模变得非常复杂,求解困难,很难真正实施应用。
总而言之,针对新闻文本建模,目前没有一个统一的主题模型可以同时解决以下几个问题:1)在保证模型简单灵活的前提下涵盖多个新闻事件要素。2)既找出关键事件又能同时发掘他们对应的主题。3)给定一个特定事件,模型能够描述出它的发展过程。4)自动估计关键事件的数量以及他们主题的数目。
发明内容
本发明的目的是克服现有技术的不足,提供一种基于混合距离依赖中餐馆过程的层次化主题建模方法。
基于混合距离依赖中餐馆过程的层次化主题建模方法包括如下步骤:
1)对新闻文档数据进行预处理,提取事件要素实体词,包括时间、地点、人物;
2)根据实体词和文档内容计算出每两个文档之间的相似度,根据基于相对熵的方法计算出每两个事件之间的相似度,事件是指属于同一个类的所有文档;
3)利用以上两种相似度,结合混合距离依赖的中餐馆过程先验,通过坍缩吉布斯采样,对每个文档选择与其最相似的文档并连接,即得到每个文档的链接,如果选择的文档是自己则进一步选择与该文档最相似的一个主题;
4)重复步骤3)迭代地确定所有链接和主题;
5)根据链接和主题的最终分配结果得到事件的发展结构图及其所属的主题。
所述的步骤1)包括:
(1)采用自然语言处理工具对文档进行分词,以得到文档中出现过的词;
(2)去除其中的停词以及频数过低的生僻词,组成词汇表;
(3)根据词汇表将文本文档转化成向量;
(4)采用命名实体提取工具提取出文档中出现的实体及其相关属性。
所述的步骤2)包括:
(1)定义文档x和y的相似度为其中exy表示在文档x和文档y中出现过的共有实体的数量,|x|e表示文档x中出现过的所有实体的数量;
(2)定义dSx,y为文档x和y基于共现实体的距离,且满足
(3)用一个带权重的窗口衰减方程作为距离dSx,y上的衰减方程:
FS(x,y,dSx,y)=1[0<tx-ty<a]dSx,y,其中1[]是一个示性函数,tx是文档x的时间戳,a是时间窗口大小;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410706246.0/2.html,转载请声明来源钻瓜专利网。





