[发明专利]文档搜索方法和装置及文档处理器有效
申请号: | 200810098174.0 | 申请日: | 2008-05-26 |
公开(公告)号: | CN101593179A | 公开(公告)日: | 2009-12-02 |
发明(设计)人: | 杨建龙;沈星星;钟嘉田;周财 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 | 代理人: | 李春晖;李德山 |
地址: | 美国*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 搜索 方法 装置 处理器 | ||
技术领域
本发明总体上涉及文档处理的技术领域,更具体地说,涉及文档搜索方法和装置及文档处理器。
背景技术
诸如Adobe Reader,MS Word,UltraEditor和web浏览器是当前被广泛地使用的文档处理器(下面统称为“文档处理器”)。文档处理器最常用的功能之一是“搜索”,即,在文档中查找词或词组。然而,几乎所有的文档处理器都只能根据由用户指定的完整的扩展词组来进行查找,而不能根据词组的片段,例如缩写字符串来进行查找。换句话说,如果用户仅仅知道一个词组的缩写而不能完整地拼写出其扩展词组,则上述“搜索”功能是无法工作的。例如,如果用户利用文档处理器阅读DB2 SQL参考手册,要查询有关递归通用表表达式“RCTE”(对应于扩展词组“Recursive common tableexpression”)的讨论,但是用户只知道该词组的缩写字符串“RCTE”而无法拼写出该缩写所对应的扩展词组,则当前Adobe Reader、MS Word等文档处理器中的“搜索”功能无法根据用户提供的待查找的缩写字符串“RCTE”在指定文档中搜索到其所对应的扩展词组“Recursive common tableexpression”。
针对如何通过缩写字符串在文档中搜索扩展词组的问题,以下是现有技术中一些解决方案。
在UltraEditor中,可使用“正则表达式(Regular Expression)”来通过缩写字符串查找到其对应的扩展词组。由于UltraEditor在其搜索工具中集成了“正则表达式”,因此可使用“正则表达式”的规则,通过词组的首字母缩写和其它一些特殊的字符来构建正则表达式,并利用该正则表达式在文档中搜索缩写字符串所对应的扩展词组。但是,不熟悉计算机技术的用户掌握“正则表达式”是很困难的,因此UltraEditor中的该项功能难以在通常用户中普及。而且,Adobe Reader,MS Word,以及几乎所有的web浏览器都不支持“正则表达式”。
美国专利No.6934767提供了一种方法,该方法基于在前和在后的字定义符来自动查找到一个缩写的子串,确定其是一组缩写子串中的一个,并通过以该缩写子串的扩展子串代替该缩写子串来产生扩展字符串。这种方法需要事先准备缩写子串和扩展子串之间的对应表,并且这种对应表对于特定的用户可能是不同的,所以该方法不适于用作为通常的搜索功能。
发明内容
鉴于上述现有技术中存在的问题,根据本发明的第一方面,提供一种文档搜索方法,包括步骤:按照预定提取规则提取待搜索文档中相应词的首字符以形成首字符串;构建所提取的首字符串与待搜索文档的对应关系;在首字符串与待查找的缩写字符串之间进行匹配;以及根据匹配结果和对应关系,确定待查找的缩写字符串所对应的扩展词组及其在待搜索文档中的位置。
根据本发明的第二方面,提供一种文档搜索装置,包括:提取单元,用于按照预定提取规则提取待搜索文档中相应词的首字符以形成首字符串;构建单元,用于构建所提取的首字符串与待搜索文档的对应关系;匹配单元,用于在首字符串与待查找的缩写字符串之间进行匹配;以及定位单元,用于根据匹配结果和对应关系,确定待查找的缩写字符串所对应的扩展词组及其在待搜索文档中的位置。
根据本发明的第三方面,提供一种包括有上述本发明第二方面的文档搜索装置的文档处理器。
通过本发明,即使用户仅仅知道缩写词组而不能完整地拼写出其扩展词组,也可精确、高效地实现搜索功能,在待搜索文档中定位缩写词组的扩展词组。
附图说明
通过结合附图对本发明的具体实施方式的描述,本发明的以上的和其它目的、特点和优点将变得明显,在附图中:
图1是示出了根据本发明的文档搜索方法的一个实施例的流程简图;以及
图2是示出了根据本发明的文档搜索装置的一个实施例的方框图。
具体实施方式
图1是示出了根据本发明的文档搜索方法的一个实施例的流程简图。如图所示,若已知一个缩写字符串,需要在待搜索文档中搜索该缩写字符串所对应的扩展词组,则根据本发明的方法的具体流程如下:
依据预定的提取规则,从待搜索文档中提取相应词的首字符以形成首字符串(S20)。取决于不同的提取规则,可以对文档中所有的词进行提取,或者可以对例如表示文档主要意思的词进行提取。用户可按实际需要自定义提取规则,后文将对此点进行进一步详述。
构建被提取的首字符串以及待搜索文档之间的对应关系,包括首字符中每一个字符所对应的扩展词及其在待搜索文档中的具体位置(S30)。例如可使用映射表等数据结构来记录这种对应关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810098174.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:应急处理流程的信息化方法
- 下一篇:燃油滤清器组件