[发明专利]文献字段标准化的方法无效
申请号: | 200710307065.0 | 申请日: | 2007-12-28 |
公开(公告)号: | CN101388019A | 公开(公告)日: | 2009-03-18 |
发明(设计)人: | 杰森·怀特 | 申请(专利权)人: | 英赛特半导体有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京信慧永光知识产权代理有限责任公司 | 代理人: | 武玉琴;张友文 |
地址: | 加拿大*** | 国省代码: | 加拿大;CA |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文献 字段 标准化 方法 | ||
技术领域
本发明涉及数据库条目(entry),具体地,本发明涉及对数据库条目进行文献字段标准化的改进方法。
背景技术
很多数据库系统都包含着数千乃至数百万的记录。通常,主要用这些记录中的一个或多个字段来编录或检索数据库记录。这些字段被称为文献字段。
并不鲜见的是,对这些文献字段而言,多个数据库记录具有一个共同值。例如,在一个记载有多个专利记录细节的数据库中,可以用个人或公司的名字访问该专利数据库,该个人或公司可以是该专利的发明人和/或受让人。而该相同的个人或公司名字可以用于具有相同发明人和/或受让人的若干专利。
如通常的情形那样,当记录条目是采用手工输入时,碰到错误的条目是很常见的。即使设立标准的命名规则,如对个人名字设立标准的命名规则(例如,名在姓后面,以逗号分开,或者在姓名前冠以一系列称呼之一,如“Mr.”、“Ms.”),也是如此。
而且,记录数据可能被正确地输入,但是记录本身的信息可能表现为较早阶段的潜在条目错误,例如,在已授权专利的封页上,发明人的名字存在着排字错误。
通常,大多数数据库条目系统执行的是人工验证步骤,借此检验员手动地检查所输入的记录,或者检查正在输入的记录字段与已输入进数据库内的对应条目之间的匹配。这样就确保了数据库自始至终保持着正确的形式,从而适合于检索。
然而无论以何种方实现,即使在一个记录包含很少的文献字段的情形下,这种人工验证过程的成本也很高,并且不能保证与任意命名规则都普遍相适应或者数据条目的100%准确度。实际上,如果错误是潜在的,即在当前输入进数据库内的文件或记录上已经有错误的信息,那么这种验证过程将没有任何作用。
另外,这种验证过程的成本还使得只能对所识别的关键文献字段中很少的一部分,例如在专利数据库中,只能对第一发明人和/或受让人的名字执行这样的检验。而其他的文献字段,比如共同发明人的名字、代理人或者其他当事人,通常未经验证,而且估计会充斥着数据库条目错误。因此,对于使用这种次级文献字段进行检索而言,这种人工验证工作根本无法保证检索能够覆盖正确或希望的记录。
由于上述的这些缺点,人们对开发标准化的程序产生了兴趣。与促使数据库条目的正确性相比,这种标准化程序更多的是针对潜在的不正确条目,并产生一种度量标准(metrics),该度量标准用于识别哪些不是完全相同的文献字段能够指向相同的条目,从而便于检索数据库。
这些程序中的许多都使用的是编辑距离算法(edit distancealgorithm),这些算法包括但并不限于Levenshtein,Hamming以及damerau-levenshtein算法,这些算法用于量化两词之间的相似度。同样已知的还有模糊检索,这种算法通常通过对两个文本字符串间的差别进行加权从而测定它们之间的相关性,其中对应于相同字符串的权重为零,对应于相差单个替换(词语中单个字母产生的变化)的字符串的权重为1,等等。
采用这种度量标准,加权值越小,所考虑字符串构成匹配的可能性越大,也即,所考虑字符串涉及相同的文献实体的可能性越大,该文献实体可以用查找表或词典加以识别。
现有技术中已有许多涉及在查询时能自动校正文本错误的方法的系统。
例如,2006年7月11日授权给Nagao的、名称为“DocumentProcessing Apparatus Having an Authoring Capability for Describing aDocument Structure”的美国专利No.7,706,732描述了使用词典循环(looping)来校正短语字符串中的错误。短语字符串指的是不构成完整语句的词语字符串,如搜索引擎中的关键词。Nagao教导的这种方法将整个短语字符串分段成子字符串,而不是由空格描绘(space-delineated)的词语,然后将这些子字符串与短语词典里的条目进行比较,获得最佳匹配。Nagao主要针对的是搜索引擎中的拼写校正,并且仅能有限地适用于较大数据库内文献字段的标准化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英赛特半导体有限公司,未经英赛特半导体有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710307065.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:提供工程工具服务的方法
- 下一篇:声接触式传感器