[发明专利]一种信息媒介的专题阶段性摘要的生成方法有效
申请号: | 201510366843.8 | 申请日: | 2015-06-29 |
公开(公告)号: | CN105005590B | 公开(公告)日: | 2019-02-22 |
发明(设计)人: | 张仰森;尤建清 | 申请(专利权)人: | 北京信息科技大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京远创理想知识产权代理事务所(普通合伙) 11513 | 代理人: | 卫安乐 |
地址: | 100192 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种信息媒介的专题阶段性摘要的生成方法,包括获取特定时间段内的各信息媒介的文档;对所述信息媒介的文档进行主题抽取并生成主题集,以及对所述主题集利用话题检测与追踪技术进行话题聚类,并生成信息媒介专题的阶段性摘要,本发明实施例的信息媒介的专题阶段性摘要的生成方法具有生成的专题阶段性摘要有较好的召回率的优点。 | ||
搜索关键词: | 信息媒介 主题集 文档 话题检测 生成信息 主题抽取 时间段 聚类 媒介 追踪 话题 | ||
【主权项】:
1.一种信息媒介的专题阶段性摘要的生成方法,其特征在于,包括步骤:S1:获取特定时间段内的各信息媒介的文档;本步骤中,用于在一个时间段内获取各种信息媒介的文档,以便于进行生成主题集;S2:对所述各信息媒介的文档进行主题抽取并生成主题集;S3:对生成的所述主题集利用话题检测与追踪技术进行话题聚类并生成信息媒介专题的阶段性摘要;其中,在步骤S2中,所述对所述各信息媒介的文档进行主题抽取并生成主题集的步骤包括:计算各信息媒介的文档中句子的度中心性;计算信息媒介的句子的位置信息;结合句子的度中心性和位置信息完成对信息媒介主题的抽取;所述生成信息媒介专题的阶段性摘要的步骤包括:对所述生成的主题集进行基于时间流的双向聚类;对经过双向聚类生成的话题进行差集或交集分析以提取共同关注的话题和新产生的话题;对聚类生成的重复的话题进行二次聚类生成所述信息媒介专题的阶段性摘要;通过步骤S1、S2和S3,在完成对新闻专题某时间段的新闻文档集的各文档进行主题抽取之后,文档集就转换成了主题集,以及对其进行基于时间流的Single Pass双向聚类和二次聚类完成生成新闻专题的阶段性摘要;步骤S3中输入的数据为:按照时间顺序的新闻专题的某时间段文档集对应的主题集,表示为T={t1,t2,…,ti,…,tn},其中,ti表示编号为i的文档的主题信息;聚类的阈值threshold以及判断一个类别能否真正成为话题类的成类阈值
步骤S3中输出的数据为:新闻专题在该时间段的阶段性摘要;步骤S3具体为:⑴如果主题集T中第一篇文档的主题信息t1和最后一篇文档的主题信息tn的相似度大于等于预先设定的聚类阈值threshold,返回tn作为最终摘要,聚类结束;⑵双向聚类初始化:对于正向聚类,Cf1={t1},Cf={Cf1},Tf=T‑{t1}={t2,…,tn};对于逆向聚类,Cb1={tn},Cb={Cb1},Tb=逆序(T)‑{tn}={tn‑1,…,t1};初始化的作用是,根据聚类方向将该方向上的第一个文档的主题信息预设为第一个话题,同时将余下的主题集作为待聚类的信息;⑶正向聚类,并迭代;①对集合Tf中的每一个ti,逐一计算ti与Cf中所有类别的相似度,得到最大值maxSim;如果maxSim大于等于threshold,则将ti划入maxSim对应的类,并更新该类别的中心;否则创建新类Cfk={ti};更新Tf,即将已聚类的主题信息ti从Tf中删去;更新Cf,即将新类别Cfk加入到Cf;②更新迭代次数;并再次聚类直至迭代次数为0;③正向聚类结束,得到Cf,并删去Cf中文档数小于成类阈值的类别,其中,设定成类阈值为该阶段新闻文档总数的10%;⑷逆向聚类,并迭代;①依次对集合Tb中的每一个ti,逐一计算ti与Cb中所有类别的相似度,得到最大值maxSim;如果maxSim大于等于threshold,则将ti划入maxSim对应的类,并更新该类别的中心;否则创建新类Cbk={ti};更新Tb,更新Cb;②更新迭代次数;并再次聚类直至迭代次数为0;③逆向聚类结束,得到Cb,并删去Cb中文档数小于成类阈值的类别;⑸主题交集再聚类;令TS=∪(Cfm∩Cbn),其中Cfm和Cbn分别指Cf和Cb中的任一话题类别,TS表示正逆向聚类结果中被重复聚类的主题集合,对应于T中的已经存在的、被共同关注的重要话题;直接计算TS的质心,然后按照时间顺序依次计算该集合的每条主题信息与质心的相似度,如果大于threshold,将该主题信息划入再聚类的类别CS中,否则从TS删去该主题信息;直至TS为空,再聚类结束并得到最终的CS;⑹阶段性摘要生成;对CS类中取距离类中心最近的三个新闻文档,对Cf和Cb的每个类分别取距离类中心最近的一个新闻文档,将这些文档的主题按照时间次序生成新闻的阶段性摘要;其中,步骤(5)中,TS的获取过程为:经过第一次的双向聚类后,分别得到一些正逆向的聚类结果;但由于Single Pass算法的单向性,对于任一方向上的聚类,每条主题信息要么被成功聚类且只在该方向的某个类别中出现一次,要么聚类不成功根本不会出现在该方向上的任一类别中,正逆向皆是如此,因此直接统计正逆向聚类结果中的所有主题信息,同时出现在正向类别和逆向类别中的主题信息的被直接划分到集合TS中。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学,未经北京信息科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510366843.8/,转载请声明来源钻瓜专利网。