[发明专利]一种支持多语言的XML数据库全文检索方法有效
申请号: | 201210193936.1 | 申请日: | 2012-06-12 |
公开(公告)号: | CN102760166A | 公开(公告)日: | 2012-10-31 |
发明(设计)人: | 赵伟;郑程光;孙伟丰;罗正海;李泉;李浩;李书淦;程仁波 | 申请(专利权)人: | 上海方正数字出版技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 胡晶 |
地址: | 201203 上海市浦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种支持多语言的XML数据库全文检索方法。本发明的技术方案可以让XML数据库管理系统不再依赖于语言选项设置,支持在同一个文本匹配条件中使用多种语言构成的查询条件字符串进行全文检索,且被检索的XML文档内部亦可同时含有多种语言文字。本发明的技术方案对于以互联网为基础的国际化大潮下大量的多语言文本的全文检索具有更大的实用价值,因为这样的文本内容和全文检索需求会不断快速增长,限定于单一语言的全文检索无法满足这类需求,只有支持多语言全文检索的XML数据库管理系统才具有实用价值。特别是在中文用户群中该功能更加有用,可以适应当前中文文本中大量含有英文单词的现状和检索需求。 | ||
搜索关键词: | 一种 支持 语言 xml 数据库 全文 检索 方法 | ||
【主权项】:
一种支持多语言的XML数据库全文检索方法,其特征在于,包括以下的步骤:分别构建stemming词汇表、thesaurus词汇表和stopwords词汇表;分别将所述stemming词汇表、所述thesaurus词汇表和所述stopwords词汇表存储至XML数据库管理系统的查询引擎中;分别设置所述stemming词汇表、所述thesaurus词汇表和所述stopwords词汇表各自对应的唯一的查询字符串作为其主键标识;在全文检索查询语句中引用所述stemming词汇表、所述thesaurus词汇表和所述stopwords词汇表;所述查询引擎分别以所述查询字符串为主键从所述stemming词库中查找所述stemming词汇表、从所述thesaurus词库中查找所述thesaurus词汇表,从所述所述stopwords词库中查找所述stopwords词汇表,并得到各自存储的字符串内容;所述按照stemming词汇表的预定义格式解析从所述stemming词汇表中查找得到的所述字符串、按照所述thesaurus词汇表的预定义格式解析从thesaurus所述词汇表中查找得到的字符串以及按照所述stopwords词汇表的预定义格式解析从stopwords所述词汇表中查找得到的字符串;所述查询引擎分别将所述经过解析的字符串从相应的词汇表中取出并存储至相应的内存数据结构中,以快速查找任意单词的词根、词间关系和停用词。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海方正数字出版技术有限公司,未经上海方正数字出版技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210193936.1/,转载请声明来源钻瓜专利网。