[发明专利]一种中文文档集的主题可视化方法有效

专利信息
申请号: 201310488312.7 申请日: 2013-10-17
公开(公告)号: CN103631856B 公开(公告)日: 2017-01-11
发明(设计)人: 朱敏;梁婷;甘启宏;李明召;李一 申请(专利权)人: 四川大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 成都信博专利代理有限责任公司51200 代理人: 卓仲阳
地址: 610065 四川*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 中文 文档 主题 可视化 方法
【说明书】:

技术领域

发明涉及文本可视化和主题分析领域,具体来讲是一种中文文档集的主题可视化方法。

背景技术

大型文档集合,如新闻、科技文献、网页和电子刊物、公告等,蕴含了大量信息。随着信息数字化的发展和普及,文档集合的规模日益扩大,快速阅读和理解浩如烟海的信息,并从中提炼出有用的知识,已成为人们亟待解决的问题。

“主题”通常包括一个核心事件或活动,以及所有与之直接相关的事件和活动。主题检测方法采用聚类、分类、检索、主题追踪等技术,根据主题将文档集进行层次式归类和组织,方便用户对其进行检索、选择和浏览。然而,将文档进行归类后,用户仍需耗费大量时间阅读该主题下的所有文档,以了解主题的主要内容、发掘潜在知识和获取所需的信息。

多文档自动摘要技术在主题检测的基础上,对主题内容进行汇总,去除冗余信息后,生成全面、简洁的文本。因而极大地提高了信息获取效率。但现有的多文档摘要结果通常比较复杂,用户难以理解,且难以对摘要生成过程进行控制,缺乏友好的用户接口和人机交互操作。此外,多文档自动摘要技术往往忽略了文本内容外的其他属性,如时间、数量等,难以展现文档集中主题和主题内容随时间的演变特征,也无法反映同一文档集下各个主题之间的关系。

文本可视化作为信息可视化领域的一个重要分支,利用人类与生俱来的对图形的辨识、记忆及分析能力,将文本信息转化为图形图像,帮助人们直观、高效地理解、阅读和分析文本内容与结构,并通过相应的交互操作,帮助人们发掘有价值的知识和模式。

Word Cloud(文字云)可视化技术将文本内容抽象成一组词汇的集合,利用字体大小表示词汇的词频信息,然后将词汇按照一定规律紧凑、美观地排列起来,以表示文本特征。但文字云只能对单个文档进行可视化。对多个文档,Themerive(主题流)对文档集中的主题进行可视化,展示文档集中各主题强度随时间的变化趋势。最初的主题流只包含主题强度和时间信息,且主题顺序随机排列。之后,刘世霞等人提出改进的主题流TIARA,即在主题流中嵌入文字云,进一步对各主题内容进行可视化,有助于用户快速分析文本主题内容随时间的变化规律。

以上几种文本可视化技术均缺乏通用性,不适用于中文文档,在国内到目前为止,也尚缺乏对中文文档主题进行分析的可视化技术。此外,只针对英文文档主题可视化的TIARA技术也存在如下问题:1)主题流中文字云的形状、布局不稳定,容易使用户造成误解,影响主题分析效果;2)由于受区域限制,生成的文字云无法展示出各主题的全部关键内容。

发明内容

本发明的目的在于提供一种中文文档集的主题可视化方法,通过对中文文档集中提取出的各主题信息进行统计和处理,度量出主题的强度和内容的权重,然后以图形化的方式进行展示。

实现本发明目的的技术方案如下:一种中文文档集的主题可视化方法,包括按主题对文档集分类的步骤:设文档集有n个主题lj,j=0,1,2,...,n-1,根据主题对文档集中的所有文档进行分类,得到n个文档子集Dj,j=0,1,2,...,n-1;其中,主题lj对应的文档子集是Dj

划分文档集时间段的步骤:设文档集开始时间为tstart,结束时间为tend,对文档集时间段[tstart,tend]进行等分,得到时间段Tp=(tstart+(p-1)Δt,tstart+pΔt],其中,p=1,2,…,m-1,计算主题频次的步骤:设主题频次包括vj,0和vj,p,其中vj,0为主题lj对应的文档子集Dj在开始时间tstart的文档数量,vj,p是主题lj对应的文档子集Dj在时间段Tp内的文档的数量;分别计算每个主题的主题频次;

对主题进行排序的步骤:对所有主题排序,得到排序后的主题序列表;

生成主题流图的步骤:根据排序后的主题序列表和主题频次,采用主题流算法,生成主题流图;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310488312.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top