[发明专利]一种文本案例匹配方法有效
申请号: | 201310385122.2 | 申请日: | 2013-08-29 |
公开(公告)号: | CN103473283A | 公开(公告)日: | 2013-12-25 |
发明(设计)人: | 陶坤旺;张福浩;仇阿根;汤磊 | 申请(专利权)人: | 中国测绘科学研究院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京理工大学专利中心 11120 | 代理人: | 高燕燕;杨志兵 |
地址: | 100830 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 案例 匹配 方法 | ||
技术领域
本发明涉及智能检索领域,具体涉及一种文本案例匹配方法。
背景技术
案例推理(CBR)是最近三十多年来日益发展的区别于规则推理的一种新的推理模式。它是一种重要的基于所积累的知识进行现有问题求解和学习的方式,强调人类对于过去积累的知识经验以及前人的智慧结晶的重视。一个典型的案例推理问题求解过程的基本步骤可以归纳为四个主要过程:案例检索(Retrieve)、案例重用(Reuse)、案例修正(Revise)和案例保存(Retain)。案例推理的关键在于检索与当前新发案例最相近的历史案例,即案例检索,以便直接利用或稍加修改其解决方案来应对当前问题,避免了对类似问题做重复的分析工作,从而大量节省处理问题的时间,因此该推理方法广泛受到国内外研究学者的关注。而如何提高新旧案例匹配相似率,一直是学者们研究的重点。
案例匹配是根据已知的案例内容,去案例库寻找与此最相近的历史案例,从而快速得到解决方案或以此作为参考。分析以往文献可以发现,过去案例匹配的方法多数是通过比较案例间的属性数值来获取最相似案例,而对于文本的相似计算却研究甚少。实际上,在案例中,文本信息占据很大的比例,它主要以文字或辅以图片呈现。因此,案例匹配的准率通常取决于案例中相关文本信息的匹配的精确性。
传统的文本信息检索采用的方法有布尔检索、向量空间检索和概率检索。早期的信息检索系统采用“布尔查询”的方法来进行全文检索。布尔检索(Boolean Retrieval)是一种简单而常用的严格匹配模型,它定义了一个词组集合来标识文档,该词组被称为标识词组。同时运用布尔逻辑运算符将检索词连接起来形成 检索式,再与文档标识词组做逐一匹配。如此,布尔检索的本质就是将文本匹配转化成词组间的相互匹配。虽然布尔模型具有简单、易理解、易在计算机上实现且检索速度快等优点。但是这种方法很难全面地表达用户需求,对于模糊的信息需求不能很好的处理,用户必须详细的规划自己的查询,其复杂程度不亚于编程语言。而且这种检索方式对于检索词的重要度不加区分,忽视索引词与词之间的内在关系,所以对检索词与标识词的比较过于严格,对于文档与查询的评价就只有“匹配”,“不匹配”两种而已。
向量空间模型(Vector Space Model)由Salton等人于20世纪70年代提出。该模型用检索项的高维向量空间来表示用户的提问和文本集信息,其中每一维为一个特征。一个用户提问向量或文本向量的第i个元素表示用户提问或文本的第i个特征的重要度,或称权值。用户提问向量的权值由用户指定;文本向量的权值则根据特征在文本或文本集中的出现频率决定。提问向量与文本向量间的余弦角通常用来测定该文本与该用户提问词之间的匹配程度。向量空间模型为索引词引进了权值,通过调节词的权值的大小来反映标引词与被标引文档的相关程度,部分地克服了传统布尔检索的缺陷,但是此模型在各个维度间缺乏相关性,标引词被认为是相互独立的,因而无法对文档中各个词的相关性提供信息。从宏观上看,仍然没有摆脱“关键词匹配”的窠臼。
概率模型(Probabilistic Model)最早由Maron和Kuhn在1960年提出。概率模型通常利用检索单元作为线索,通过统计得到每个检索单元在相关的文档集中出现和不出现的概率以及其在与该查询不相关的文档集中出现和不出现的概率。最终利用这些概率值,计算文档与查询的相似度。在检索过程中,它通过反复反馈结果和用户需求,使结果得到了很好的调整,但是它沿用了索引词之间相互独立的基本假设,忽略了内在语义关系,影响查询结果的准确性。而且在该模型理论中没有考虑到索引属于在文档中的频率。
总结来看,传统的文本匹配方法已经越来越难满足当前日益增长的案例信 息的检索需求了。它们在一定程度上忽略了对词语义关系的处理,而仅局限于文本表面的字符匹配。目前还没有出现对一些没有被文字直接表述出来但隐含在案例中的信息进行较好检索的方法。
发明内容
有鉴于此,本发明提供了一种文本案例匹配方法,突出对词语义关系的处理,能够将一些没有被文字直接表述出来但隐含在案例中的信息较好地检索出来。
本发明的具体方案是这样的:一种文本案例匹配方法,包括:
步骤一、从新闻或档案中搜集案例,将所述案例集合起来构建案例库;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国测绘科学研究院,未经中国测绘科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310385122.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:多用水冷式笔记本电脑散热座
- 下一篇:硬盘固定装置及应用其的电子装置