[发明专利]文本信息遍历的快速四维可视化方法无效
| 申请号: | 200610148347.6 | 申请日: | 2006-12-29 |
| 公开(公告)号: | CN101211344A | 公开(公告)日: | 2008-07-02 |
| 发明(设计)人: | 蔡阳波;陈勇 | 申请(专利权)人: | 上海芯盛电子科技有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 上海东方易知识产权事务所 | 代理人: | 沈原 |
| 地址: | 201108上*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 信息 遍历 快速 可视化 方法 | ||
技术领域
本发明属于计算机信息检索和存储领域,针对关于文本的信息遍历提供了一种新的自动四维可视化表示方法(为用户构建多维索引)。该方法建立在三维可视化和人机互动的基础上。
背景技术
目前的文本可视化方法主要包括:传统的图表可视化方法,例如直方图、单位的组织结构图、商品目录、数据库中的实体-属性关联图等。存在缺点是:不能对任意文本进行可视化,也不能适应海量数据库的可视化。计算机“可视查询”工具,通过图形方法或者数据抽象的方法对文本库进行可视化,可以被任何用户用于任何环境,但仍不适合规模比较庞大的文本数据库。目前研究人员已经为基于文本的大型信息数据库创建了分析系统,它们依靠布尔查询、文档列表和大量的人工消耗来进行分类、编辑和对数据进行结构化。在许多诸如市场分析、气象预测评估、环境监测甚至国家安全情报搜集分析领域,分析人员的任务是仔细辨别大量的数据以得出合适的信息认知模式以及满足跨越不同数据源之间的不规则模式。但随着开放的数字资源存指数级别增长,面对海量的文档数据,用户将面临如下问题:文档归类困难,文档很难被识别,存储空间增加,检索的速度降低。现有的三维可视化方法也存在处理过程过于简单、容易丢失文本信息以及人机互动不强的缺点。
发明内容
为了克服上述已有技术存在的缺点,本发明为海量文本信息的检索分析处理提供了新的基于向量空间维数变换文本空间化表示和向量处理方法,可以根据实际需求进行任意维数的可视化,增加了用户喜好参数作为第四维数。
本发明的基本思想是根据用户输入,提取特征向量的数目,得出文本检索分析的最佳维数,以此来决定和显示文本数据库中相关文本的内容和上下文。所有文本采用相关大小值、峰值(表示文本主题在空间中按照重要性排列的顺序值)、内容以及用户输入的附加特征值来表示。(1)构建待分析的文本的数据库;(2)接受用户输入,将输入值与固定特征值结合,创建高维的特征向量,每个高维的特征向量表示独立文本集合的主题属性;(3)将得到的高维特征组成聚类,每个聚类按照与某个主题属性的关联度进行初步划分;(4)计算出每个聚类的质心坐标,质心被投影到二维平面;(5)为每个文本建立一个向量,每个向量包含该文本到质心的距离;(6)创建文本分层,每个分层都与相应的聚类关联,用坐标(x,y)表示与每个分层相关联的文本;(7)应用一个转换函数求出每个文本的z坐标以及u坐标,得出四维可视化表示,并将该坐标叠加到其他分层上。
本发明可以根据用户输入特征和系统规定特征对文本进行有效分类,将传统的文本数据集合转换为三维的形式,并在三维可视化的基础上把用户也作为一维。为海量文本的查询分析提供了更加直观、形象和简便的方法,人机互动性大大增强,更能满足不同用户需求,并容易编程实现。
附图说明
附图1是文本数据库在二维平面的表示图。
附图2是图1的一维表示图。
附图3是图2的平滑转换图。
附图4是文本数据库的四维表示图。
具体实施方式
具体实现步骤如下:
(1)文本的预处理。设置待处理文本的数量N,输入文本。将自然语言文本转换为可视化形式,用以下统计属性作为衡量个体文本的特征值:X=(文本编号,文本大小,文本格式,文本中的关键词的出现位置和次数,每个词语的位置、出现次数和相邻词语的编号,用户访问该文本的次数,用预先获取的语言知识定义的语义以及用户可能输入的特征值)。用文本的特征值来表示文本。
(2)根据特征值求出任意两个文本间的欧氏距离Dij=(Xi-Xj)2/2(其中Xi、Xj表示第i和第j个文本的特征向量),将该距离作为文本间的相似度,并将相似度与第(1)步求得的特征值结合起来组成高维特征向量集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海芯盛电子科技有限公司,未经上海芯盛电子科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200610148347.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种业务中间件服务负载均衡方法
- 下一篇:消防车的器材取放接应装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





