[发明专利]面向多源信息的混合文本话题发现方法有效
申请号: | 201910403543.0 | 申请日: | 2019-05-15 |
公开(公告)号: | CN110263153B | 公开(公告)日: | 2021-04-30 |
发明(设计)人: | 吴旭;颉夏青;王昕喆;许晋;方滨兴;陆月明 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/247;G06F40/289 |
代理公司: | 北京辰权知识产权代理有限公司 11619 | 代理人: | 刘广达 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 信息 混合 文本 话题 发现 方法 | ||
1.一种面向多源信息的混合文本话题发现方法,具体包括以下步骤:
步骤一、对原始数据进行特征融合,得到特征均匀的结果集D;
步骤二、对步骤一中得到特征均匀的结果集D,基于狄利克雷多项式混合模型的聚类方法进行聚类;其特征在于,
所述步骤一中,对原始数据进行特征融合,具体包括以下子步骤:
步骤1.1定义长文本和短文本;
步骤1.2对每一个长文本,基于TextRank算法对长文本进行摘要提取;
步骤1.3对每一个短文本,基于哈工大同义词词林来对短文本进行同义词拓展;
所述步骤二中,具体包括以下子步骤:
2.1初始化,设置α、β、K的值,将所有文档划分为K个簇,对每一个簇z,初始化mz,nz,nz(w)计数为0,其中mz表示簇z中所有文档的总数目,nz代表在簇z中所有文档内所有词语的个数,nz(w)表示词语w在簇z中出现的总次数;
2.2对于结果集D中每一篇文档d,随机为所有文档d初始化一个簇,对于加入的簇,每加入一个文档,将mz的计数加1,将nz的计数加Nd,Nd表示文档d中所有词语的个数,对每一个单词,nz(w)的计数加Nd(w),Nd(w)为文档d中,词语w的个数;
2.3每篇文档d的重新分配,依次对于每一个簇中的每一篇文档d重新分配,且通过坍塌吉布斯采样算法进行重新分配,通过坍塌吉布斯采样算法,得到概率分布;
2.4根据所求得的概率分布,最终每个文本被分配给一个特定的簇,即每个文本属于一个话题,那么第z个簇中w词语出现的概率为:
其中nz(w)表示词语w在簇z中出现的总次数;φz(w)可以理解为词语w对于簇z的重要程度,根据φz(w)的次序可以得到每个簇的代表词。
2.如权利要求1所述的一种面向多源信息的混合文本话题发现方法,其特征在于,所述步骤1.2,具体包括以下子步骤:
1.2.a)预处理,将长文本内容按标点符号分割成句子,形成句子集V,对每个句子进行分词、去除停用词操作;
1.2.b)句子间相似度计算,基于句子间的相似度,构建边集E,通过句子集V和边集E构建出图G,G=(V,E);每个句子Si可以表示为Ni个词语的集合,即
给定两个句子Si,Sj采用如下公式计算两个句子间的相似度wij:
公式中,分子的意义是同时出现在两个句子中的词语的个数,|Si|表示句子Si中词语的个数,|Sj|表示句子Sj中词语的个数;
如果两个句子之间的相似度大于某个设定的阈值,就认定这两个句子语义关联并将它们在图G中连接起来,wij作为边的权值;
1.2.c)基于该句子对相邻句子的贡献程度对句子重要程度计算;根据TextRank算法的计算公式,句子的权重WS(Vi)可以迭代表示为:
其中,d是阻尼系数,Vi表示句子集中的句子,In(Vi)代表在图G中指向句子Vi的所有句子的集合,Out(Vj)代表在图G中句子Vj指向的所有句子的集合,wij代表由句子Si和sj所连接的边的权值,wjk代表由句子Sj和Sk所连接的边的权值;根据上述公式,迭代传播计算各个句子节点的权值;
1.2.d)选取候选摘要句:对1.2.c)中的句子权值进行倒序排序,选取权值最高的前N个句子作为候选摘要句;
1.2.e)形成摘要,根据设置的字数或句子数要求,从候选摘要句中选择句子组成摘要;输入的长文本经过步骤1.2.a)至步骤1.2.d)后,输出为该长文本的摘要,即得到文档d,其中文档d属于结果集D。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910403543.0/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置