[发明专利]一种中文文档集的主题可视化方法有效
申请号: | 201310488312.7 | 申请日: | 2013-10-17 |
公开(公告)号: | CN103631856B | 公开(公告)日: | 2017-01-11 |
发明(设计)人: | 朱敏;梁婷;甘启宏;李明召;李一 | 申请(专利权)人: | 四川大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 成都信博专利代理有限责任公司51200 | 代理人: | 卓仲阳 |
地址: | 610065 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 文档 主题 可视化 方法 | ||
1.一种中文文档集的主题可视化方法,其特征在于,包括
按主题对文档集分类的步骤:设文档集有n个主题lj,j=0,1,2,...,n-1,根据主题对文档集中的所有文档进行分类,得到n个文档子集Dj,j=0,1,2,...,n-1;其中,主题lj对应的文档子集是Dj;
划分文档集时间段的步骤:设文档集开始时间为tstart,结束时间为tend,对文档集时间段[tstart,tend]进行等分,得到时间段Tp=(tstart+(p-1)Δt,tstart+pΔt],其中,p=1,2,…,m-1,
计算主题频次的步骤:设主题频次包括vj,0和vj,p,其中vj,0为主题lj对应的文档子集Dj在开始时间tstart的文档数量,vj,p是主题lj对应的文档子集Dj在时间段Tp内的文档的数量;分别计算每个主题的主题频次;
对主题进行排序的步骤:对所有主题排序,得到排序后的主题序列表;
生成主题流图的步骤:根据排序后的主题序列表和主题频次,采用主题流算法,生成主题流图;
提取表示主题内容的关键词的步骤:设Wj,p是主题lj对应的文档子集Dj在时间段Tp内的文档中表示该主题内容的关键词子集;使用现代汉语通用分词系统从每个主题对应的文档子集在每个时间段的文档中分别提取出表示该主题内容的关键词子集;
计算关键词的权重并排序的步骤:设关键词的权重是该关键词在一个关键词子集中出现的次数;计算每个关键词在每个关键词子集里的权重,并在每个关键词子集中根据关键词的权重从大到小对所有关键词排序;
生成文字云的步骤:根据关键词子集和关键词权重,在主题流图上生成文字云。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310488312.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:按钮开关结构及电暖器
- 下一篇:一种组合通风风管