[发明专利]一种基于混合距离依赖中餐馆过程的层次化主题建模方法在审
| 申请号: | 201410706246.0 | 申请日: | 2014-11-28 |
| 公开(公告)号: | CN104484346A | 公开(公告)日: | 2015-04-01 |
| 发明(设计)人: | 汤斯亮;吴飞;李斯;鲁伟明;邵健;庄越挺 | 申请(专利权)人: | 浙江大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 张法高 |
| 地址: | 310027 浙*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 混合 距离 依赖 餐馆 过程 层次 主题 建模 方法 | ||
1.一种基于混合距离依赖中餐馆过程的层次化主题建模方法,其特征在于包括如下步骤:
1)对新闻文档数据进行预处理,提取事件要素实体词,包括时间、地点、人物;
2)根据实体词和文档内容计算出每两个文档之间的相似度,根据基于相对熵的方法计算出每两个事件之间的相似度,事件是指属于同一个类的所有文档;
3)利用以上两种相似度,结合混合距离依赖的中餐馆过程先验,通过坍缩吉布斯采样,对每个文档选择与其最相似的文档并连接,即得到每个文档的链接,如果选择的文档是自己则进一步选择与该文档最相似的一个主题;
4)重复步骤3)迭代地确定所有链接和主题;
5)根据链接和主题的最终分配结果得到事件的发展结构图及其所属的主题。
2.根据权利要求1所述的一种基于混合距离依赖中餐馆过程的层次化主题建模方法,其特征在于所述的步骤1)包括:
(1)采用自然语言处理工具对文档进行分词,以得到文档中出现过的词;
(2)去除其中的停词以及频数过低的生僻词,组成词汇表;
(3)根据词汇表将文本文档转化成向量;
(4)采用命名实体提取工具提取出文档中出现的实体及其相关属性。
3.根据权利要求1所述的一种基于混合距离依赖中餐馆过程的层次化主题建模方法,其特征在于所述的步骤2)包括:
(1)定义文档x和文档y的相似度为其中exy表示在文档x和文档y中出现过的共有实体的数量,|x|e表示文档x中出现过的所有实体的数量;
(2)定义dSx,y为文档x和文档y基于共现实体的距离,且满足
(3)用一个带权重的窗口衰减方程作为距离dSx,y上的衰减方程:
FS(x,y,dSx,y)=1[0<tx-ty<a]dSx,y,其中1[]是一个示性函数,tx是文档x的时间戳,a是时间窗口大小;
(4)文档的集合构成了事件Si,将它定义为一个平滑多项式分布,用相对熵的方法来度量它们之间的相似度,定义为它们之间的距离,其中fT(Si,Sj)是基于对称相对熵的距离函数,如对称KL距离
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410706246.0/1.html,转载请声明来源钻瓜专利网。





