[发明专利]文档处理系统和方法无效

专利信息
申请号: 201210272218.3 申请日: 2012-08-01
公开(公告)号: CN103577459A 公开(公告)日: 2014-02-12
发明(设计)人: 王东临 申请(专利权)人: 天津书生投资有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 300308 天津市滨海新区空港*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文档 处理 系统 方法
【说明书】:

技术领域

发明涉及一种文档处理系统和方法。

背景技术

信息可大致分为结构化数据和非结构化数据,其中以书面文档和流媒体为主的非结构化数据根据资料统计占有量超过百分之七十。结构化数据的结构比较简单,即一个二维表结构,其处理技术以数据为代表,主要是利用数据库系统进行处理,从上世纪七八十年代开始发展,到九十年代达到顶峰,研发和应用已经比较成熟。非结构化数据则没有固定数据结构,因此对非结构化数据的处理非常的复杂。

目前处理各种非结构化文档的软件已经比较普及,形成了多种文档格式林立的状况。例如,文档编辑目前就存在Microsoft的word、WPS、永中的Office、Red的Office等。通常,一个内容管理软件往往要处理二三百种文档格式,而且这些格式还在不断更新,给这类软件的开发带来了巨大的困难。如何解决文档通用性、进行数字内容提取、格式兼容越来越成为人们的关注点,人们迫切希望解决以下问题:

1)文档不通用:

基本上,不同用户只能交换同一种软件处理的文档,无法交换不同软件处理的文档,形成信息封闭。

2)访问接口不统一、数据兼容代价太高:

不同的文档处理软件之间,文件格式互不兼容,在处理过程中要么利用对方组件解析(前提是对方提供相应接口),要么自己投入研发力量从头到尾的解析对方的格式。

3)信息安全较差:

目前针对书面文档的权限控制手段单一,主要是数据加密、口令认证。因为信息泄露,每年造成巨大损失的公司案例层出不穷。

4)都是针对单个文档的处理,缺乏多文档管理手段:

每个人电脑中都有大量文档,但多个文档之间缺乏有效的组织管理,而且资源共享很难。如,字库/字体文件、全文数据检索等。

5)页面分层的技术不完善:

目前一些软件,如Adobe的photoshop,Microsoft的word,多多少少已经有层的概念,但层的功能还比较单一,管理手段比较简单,不能满足应用需求。

6)检索手段不够丰富:

随着信息的海量化,用任何一个关键词来搜索都会得到数量庞大的检索结果,全文检索技术基本解决了查全率的问题,但查准率迅速上升为首要问题。现有技术还没有很充分地利用全部信息来解决查准率问题,例如每个文字的字体、字号完全可以用来判断该文字的重要性,但都在检索时被忽略了。

虽然各大公司目前都努力将自己特有的文档格式发展为市场标准,各标准组织也致力于制订通用的文档格式标准。但不管是专有的文档格式(如.doc)还是开放的文档格式(如PDF),只要是以文档格式为标准,就不可避免产生以下问题:

a)重复开发,效果不统一:

使用同一标准的不同软件都需要自己去解释、生成该格式的文档,造成大量重复开发,而且会因为各家解释程序不同,例如有的完善有的相对简单,有的支持新版本有的只支持旧版本数据,同一文档在不同软件下显现出不同的版式,甚至出现解释错误导致无法打开文档。

b)阻碍创新:

软件是不断创新的行业,但由于每增加一个新功能就需要增加描述该功能的信息,而且只有等到标准修订的时候才能增加新的格式,因此把存储格式固定死,将会妨碍技术创新的竞争。

c)影响检索性能:

对海量信息,需要增加大量的检索信息以提高检索性能,但固定死的存储格式难以增加检索信息

d)影响可移植性和可伸缩性:

在不同的系统环境下,不同的应用需求,可能会有不同的存储要求。例如,存储在硬盘上就需要考虑如何减少磁头寻道的次数以提高性能,而在嵌入式应用中数据都相当于存储在内存中的,就不存在这个问题。例如,同一个厂商的数据库软件在不同平台上就可能会使用不同的存储格式。因此,设置文档存储标准将会影响系统的可移植性和可伸缩性。

现有技术中最开放、可交换性最好的文档是Adobe Acrobat的PDF。然而,虽然PDF已经成为全球文档分发、交换的事实标准,但也不能实现在不同的软件之间交换PDF文档,也就是说,不能实现PDF文档的互操作性。而且,无论是Acrobat还是Office,都只能对单文档进行处理,缺乏对多文档的管理功能,不具备对文档库进行操作的功能。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津书生投资有限公司,未经天津书生投资有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210272218.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top