[发明专利]一种公式化数据的搜索方法及装置有效
申请号: | 201210158383.6 | 申请日: | 2012-05-18 |
公开(公告)号: | CN102693303B | 公开(公告)日: | 2017-06-06 |
发明(设计)人: | 侯秀峰;徐飞;张国晨 | 申请(专利权)人: | 上海极值信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海市锦天城律师事务所31273 | 代理人: | 刘民选 |
地址: | 201209 上海市浦东新区金海路2*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 公式化 数据 搜索 方法 装置 | ||
技术领域
本发明涉及搜索引擎技术,尤其涉及一种公式化数据的搜索方法及装置。
背景技术
随着互联网应用的发展、以及各种类型的数字化内容(文本、图片、音频和视频等)以指数级的形式呈现出爆炸性的增长,如何根据用户的输入在海量信息中准确地查找相关内容,是一个非常基础而又具有重大意义的技术挑战。目前,以Google、百度等为代表的通用搜索引擎在一定程度上已经较好地解决了这一难题。
然而以通用搜索引擎为代表及其他基于传统的文本检索系统的软件、网络应用等,在针对各类数理化公式及其他符号(如五线谱、化学分子式等)的搜索上仍然具有很大的局限性,从而在理科教育、科研工程甚至其他方面无法满足用户的搜索需求。现有技术中所常用的数学搜索系统主要有利用文本信息检索系统对数学关键词搜索和对数学公式等内容进行粗粒度搜索。其中利用文本信息检索系统对数学关键词搜索是一种基于数学术语元数据搜索,可以实现对数学内容进行粗粒度搜索,这种方法无需考虑数学搜索与通用搜索的区别。这种方法通常可以同时支持文本搜索和数学公式搜索。但是不支持更高级别的数学搜索,比如要搜索a2+c=2a,其中a可以是任意相同的表达式,这种查询就不能执行。这种方法最大的优势在于依赖一种已存在的成熟技术,但是它没有完全支持面向数学公式的查询。另一种相似的思想是依靠基于XML的XQuery搜索引擎。这两种方法的优势在于都依靠一种已存在的技术,但是它们都没有提供完全面向数学的搜索方法。
对数学公式等内容进行细粒度搜索,对数学公式的整体及部分具有一定语法结构和语义的子公式建立索引并进行搜索,这种方法比文本信息检索系统具有更强大的功能,并且更加高效。比如将模式匹配应用到基础编程语言中,在数据库中搜索数学内容并从中搜集到结构化元数据以进行有效检索。具体而言,现有技术中所使用的两种数学公式搜索方法的局限性主要表现在以下两个方面:
1.输入障碍
对于一些简单的如数学公式y=3x+5之类的公式化数据,用户可以通过键盘直接输入;而对于诸如这类结构性并不算复杂的公式如何准确进行输入,则缺乏统一的标准。具有一定数学和计算机语言知识背景的专业人士可能会输入1/sqrt(x)、1/sqrt{x}或一种出版行业通用的编辑排版的LaTeX语言的标准表达式/frac{1}{/sqrt{x}},甚至不规则的近似输入1/√x以√代替根号。但对于结构更为复杂的微积分表达式,例如则令用户捉襟见肘、根本无法输入,即使近似输入来表达积分区间也几乎不可能。
2.搜索结果的准确度和相关性
现有基于文本的搜索引擎在针对数理化公式的搜索方面仅限于基于关键词和字符串的搜索,即只能确保统计意义上的大致正确。然而数理化公式和符号是一类较为特殊的、具有结构化特征的语言,其语义依赖于特定的公式结构:例如同样含有“x+y”,但和2(x+y)这两个公式的数学意义相去甚远。因此相关的搜索算法如果仅从纯文本的角度进行字面意义上的匹配和排序,则无法确保搜索结果数学意义上的正确性,从而导致搜索的准确性和相关度下降,且精度不能达到一定标准、搜索算法过于模糊则失去使用价值。
有鉴于此,现有技术中急需要一种新的针对公式化数据的搜索方法及装置。
发明内容
为了克服现有技术中存在的缺陷,本发明提供一种公式化数据的搜索方法及装置,该搜索方法及装置能使用户方便地输入复杂公式,且针对该公式的搜索准确度和相关性均能有效提高。为了实现上述发明目的,本发明公开一种公式化数据搜索装置,包括:至少一用户端,该用户端包括一公式输入模块,用于输入公式并转换为一文本化编码;一服务器,该服务器包括一搜索模块,该搜索模块至少包括一数据库用于存储与公式对应的文本化编码;该搜索模块根据该文本化编码查询该数据库并将查询结果返回该用户端。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海极值信息技术有限公司,未经上海极值信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210158383.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:网站广告位价值量计算系统及计算方法
- 下一篇:一种实现电子书签的方法及装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置