[发明专利]面向多源信息的混合文本话题发现方法有效

专利信息
申请号: 201910403543.0 申请日: 2019-05-15
公开(公告)号: CN110263153B 公开(公告)日: 2021-04-30
发明(设计)人: 吴旭;颉夏青;王昕喆;许晋;方滨兴;陆月明 申请(专利权)人: 北京邮电大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/247;G06F40/289
代理公司: 北京辰权知识产权代理有限公司 11619 代理人: 刘广达
地址: 100876 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 面向 信息 混合 文本 话题 发现 方法
【权利要求书】:

1.一种面向多源信息的混合文本话题发现方法,具体包括以下步骤:

步骤一、对原始数据进行特征融合,得到特征均匀的结果集D;

步骤二、对步骤一中得到特征均匀的结果集D,基于狄利克雷多项式混合模型的聚类方法进行聚类;其特征在于,

所述步骤一中,对原始数据进行特征融合,具体包括以下子步骤:

步骤1.1定义长文本和短文本;

步骤1.2对每一个长文本,基于TextRank算法对长文本进行摘要提取;

步骤1.3对每一个短文本,基于哈工大同义词词林来对短文本进行同义词拓展;

所述步骤二中,具体包括以下子步骤:

2.1初始化,设置α、β、K的值,将所有文档划分为K个簇,对每一个簇z,初始化mz,nz,nz(w)计数为0,其中mz表示簇z中所有文档的总数目,nz代表在簇z中所有文档内所有词语的个数,nz(w)表示词语w在簇z中出现的总次数;

2.2对于结果集D中每一篇文档d,随机为所有文档d初始化一个簇,对于加入的簇,每加入一个文档,将mz的计数加1,将nz的计数加Nd,Nd表示文档d中所有词语的个数,对每一个单词,nz(w)的计数加Nd(w),Nd(w)为文档d中,词语w的个数;

2.3每篇文档d的重新分配,依次对于每一个簇中的每一篇文档d重新分配,且通过坍塌吉布斯采样算法进行重新分配,通过坍塌吉布斯采样算法,得到概率分布;

2.4根据所求得的概率分布,最终每个文本被分配给一个特定的簇,即每个文本属于一个话题,那么第z个簇中w词语出现的概率为:

其中nz(w)表示词语w在簇z中出现的总次数;φz(w)可以理解为词语w对于簇z的重要程度,根据φz(w)的次序可以得到每个簇的代表词。

2.如权利要求1所述的一种面向多源信息的混合文本话题发现方法,其特征在于,所述步骤1.2,具体包括以下子步骤:

1.2.a)预处理,将长文本内容按标点符号分割成句子,形成句子集V,对每个句子进行分词、去除停用词操作;

1.2.b)句子间相似度计算,基于句子间的相似度,构建边集E,通过句子集V和边集E构建出图G,G=(V,E);每个句子Si可以表示为Ni个词语的集合,即

给定两个句子Si,Sj采用如下公式计算两个句子间的相似度wij

公式中,分子的意义是同时出现在两个句子中的词语的个数,|Si|表示句子Si中词语的个数,|Sj|表示句子Sj中词语的个数;

如果两个句子之间的相似度大于某个设定的阈值,就认定这两个句子语义关联并将它们在图G中连接起来,wij作为边的权值;

1.2.c)基于该句子对相邻句子的贡献程度对句子重要程度计算;根据TextRank算法的计算公式,句子的权重WS(Vi)可以迭代表示为:

其中,d是阻尼系数,Vi表示句子集中的句子,In(Vi)代表在图G中指向句子Vi的所有句子的集合,Out(Vj)代表在图G中句子Vj指向的所有句子的集合,wij代表由句子Si和sj所连接的边的权值,wjk代表由句子Sj和Sk所连接的边的权值;根据上述公式,迭代传播计算各个句子节点的权值;

1.2.d)选取候选摘要句:对1.2.c)中的句子权值进行倒序排序,选取权值最高的前N个句子作为候选摘要句;

1.2.e)形成摘要,根据设置的字数或句子数要求,从候选摘要句中选择句子组成摘要;输入的长文本经过步骤1.2.a)至步骤1.2.d)后,输出为该长文本的摘要,即得到文档d,其中文档d属于结果集D。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910403543.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top