[发明专利]修改或改进词语使用的方法和装置有效
| 申请号: | 03138209.6 | 申请日: | 2003-05-22 |
| 公开(公告)号: | CN1460948A | 公开(公告)日: | 2003-12-10 |
| 发明(设计)人: | P·J·怀特洛克;P·G·埃德蒙兹 | 申请(专利权)人: | 夏普株式会社 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
| 代理公司: | 上海专利商标事务所 | 代理人: | 李家麟 |
| 地址: | 暂无信息 | 国省代码: | 日本;JP |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 提供一个包含词语之间的关联及与其相联系的可能值的数据库(3),它提供这种正确或惯用的关联的可能值度量。可能值基于通过分析大量文本获得的关联发生频度,例如由说母语的人创作的文本。为了检查文本段中是否有文本段的一个或多个词语的可能的错误或不自然用法,首先要分析(11)文本以确定其词语之间的关联。被分析文本中关联的可能性由数据库(3)确定。计算(14)被分析文本中每个词语的似真值,这是通过把出现该词语的关联的可能值合成起来得到的。使用词语索引另一个数据库(4),该数据库包含容易被索引词语混淆的词语集合。依次选择(13,16)每个易被混淆词语并在索引词语的关联中代替索引词语。确定这些新关联的可能值并计算(14)这个易被混淆词语的似真值。在一个错误检测实施例中,对于那些似真性落在一个阈值下面的词语尝试(23,24)易被混淆词语,并将提高似真性的易被混淆词语报告(25,26)给用户。在一个上下文相关辞典实施例中,对所有词语可以尝试易被混淆词语,并可以报告那些似真值超过一个第二阈值的易被混淆词语。 | ||
| 搜索关键词: | 修改 改进 词语 使用 方法 装置 | ||
【主权项】:
1.一种在第一语言的包含一组词语的书面或口语的文本段中的第一词语或短语选择的修改或改进方法,其特征在于,包括下列步骤:(a)提供一个第一语言词语或短语之间的关联的第一数据库(3),其中每个关联至少有一个基于该关联在大量第一语言文本中出现频率的相关可能值;(b)分析(14)该文本段以建立在该文本段的所述第一词语或短语与一个第二词语或短语之间的一个第一关联,至少对应所述关联的第一可能值以及基于所述至少一个可能值对应所述第一词语或短语的第一似真值;(c)提供一个第二数据库(4),其中每项至少有一个词语或短语与其能够被混淆成的词语或短语集合联系在一起;(d)从第二数据库(4)中选择(22)或计算出一个作为该文本段中所述第一词语或短语的候选替代的易被混淆词语或短语;(e)导出(23,24)一个易被混淆词语或短语的在第一数据库(3)中基于一个第二关联的可能值的第二似真值,该第二关联由易被混淆词语或短语和该文本段中的其它词语或短语组成;以及(f)基于计算出的似真性值选择性地提供一个易被混淆词语或短语的指示(25,26)。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于夏普株式会社,未经夏普株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/03138209.6/,转载请声明来源钻瓜专利网。
- 上一篇:用于补偿倾斜的装置和方法
- 下一篇:半导体器件及其制造方法





