[发明专利]一种信息媒介的专题阶段性摘要的生成方法有效
申请号: | 201510366843.8 | 申请日: | 2015-06-29 |
公开(公告)号: | CN105005590B | 公开(公告)日: | 2019-02-22 |
发明(设计)人: | 张仰森;尤建清 | 申请(专利权)人: | 北京信息科技大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京远创理想知识产权代理事务所(普通合伙) 11513 | 代理人: | 卫安乐 |
地址: | 100192 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息媒介 主题集 文档 话题检测 生成信息 主题抽取 时间段 聚类 媒介 追踪 话题 | ||
本发明提供一种信息媒介的专题阶段性摘要的生成方法,包括获取特定时间段内的各信息媒介的文档;对所述信息媒介的文档进行主题抽取并生成主题集,以及对所述主题集利用话题检测与追踪技术进行话题聚类,并生成信息媒介专题的阶段性摘要,本发明实施例的信息媒介的专题阶段性摘要的生成方法具有生成的专题阶段性摘要有较好的召回率的优点。
技术领域
本发明涉及语言信息处理领域,特别是一种信息媒介的专题阶段性摘要的生成方法。
背景技术
有统计显示,通过网络获取资讯的网民数量正呈现出持续增长的趋势,“上网看新闻”更是已经成为网民们的一种习惯。对于一些新闻专题来说,时间跨度较长,内容涉及方方面面,可能产生几十篇甚至几千篇的系列报道。以2014年3月8日发生的马来西亚航空公司MH370航班“失联”为例,在短短1个月的时间内,腾讯新闻网形成了70个页面约计3500篇新闻(平均每日有100多篇)的专题报道,这其中还不包括各类的相关新闻评论!如此规模的专题报道,凸显了网络新闻的特点——多角度和全方位。但随之而来的问题是,面对接踵而至的专题内容,新闻读者却难以抉择,很难有足够多的时间、并且也不可能去阅读每一篇新闻的详细内容,对新闻专题的相关内容了解不多,对整个专题的发展、演化只能望“闻”兴叹。
因此,如何设计一种能够向网民准确的呈现信息媒介的专题阶段性摘要的生成方法以方便网民根据专题阶段性摘要从大量新闻中快速选择新闻进行阅读是业界亟需解决的课题。
发明内容
为了解决上述现有的技术问题,本发明提供一种信息媒介的专题阶段性摘要的生成方法对所述信息媒介的文档进行主题抽取并生成主题集,并对所述主题集利用话题检测与追踪技术进行话题聚类,以生成信息媒介专题的阶段性摘要具有较好的召回率。
本发明提供一种信息媒介的专题阶段性摘要的生成方法,包括步骤:
获取特定时间段内的各信息媒介的文档;
对所述各信息媒介的文档进行主题抽取并生成主题集;
对所述主题集利用话题检测与追踪技术进行话题聚类,并生成信息媒介专题的阶段性摘要。
优选地,所述对所述各信息媒介的文档进行主题抽取并生成主题集的步骤包括:
计算各信息媒介的文档中句子的度中心性;
计算信息媒介的句子的位置信息;
结合句子的度中心性和位置信息完成对信息媒介主题的抽取。
优选地,所述信息媒介的文档中句子的度中心性的计算依据如下公式:
其中,si、sj是待计算相似度的两个句子,wik是第k个词在句子si中的tfidf值,wjk是第k个词在句子sj的余弦相似度值。
优选地,所述计算信息媒介的句子的位置信息依据公式:
Loc(si)表示新闻句子的位置信息对主题抽取的加权。n表示每篇新闻文档的句子总数。
优选地,所述结合句子的度中心性和位置信息完成对信息媒介主题的抽取依据如下公式:
ET(Si)=a∑Siml(si,sj)+bLoc(si)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学,未经北京信息科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510366843.8/2.html,转载请声明来源钻瓜专利网。