[发明专利]基于知识库的拼音词义检索方法在审
申请号: | 201810839933.8 | 申请日: | 2018-07-27 |
公开(公告)号: | CN109101591A | 公开(公告)日: | 2018-12-28 |
发明(设计)人: | 李飞;冉玄;张齐春;吴海鹏 | 申请(专利权)人: | 贵州广思信息网络有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 贵阳中新专利商标事务所 52100 | 代理人: | 李亮 |
地址: | 550002 贵州省贵*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于知识库的拼音词义检索方法。本发明增加了查询语义扩展,可以根据用户提交的检索词推理出与原查询相近或相关的词加入查询系统,以提高检索质量,由于查询扩展和拼音语义标注等都是基于本体进行的,这样就明确了术语的选择范围,限制了对术语可能的解释,可以很好地解决一词多义的现象,增加查询准确率。提高了信息检索效率,解决了以往技术在信息检索中性能瓶颈。 | ||
搜索关键词: | 拼音 知识库 检索 词义 信息检索 查询 查询扩展 查询系统 用户提交 语义标注 语义扩展 检索词 中性能 准确率 多义 推理 瓶颈 | ||
【主权项】:
1.一种基于知识库的拼音词义检索方法,其特征在于,包括如下步骤:1)先对网络上所存在的资源进行预处理,对文档集中的每篇文档进行词汇分析,利用禁用词表去掉文献中的虚词以及对检索作用不大的词、数字、字母及标点符号,仅保留具有实际意义的名词及动词,然后确定索引元素,并在本体中获得能够正确表达文档内容的概念性词或词组;2)判断扩展后的查询词属于三元组哪一部分并将其分别储存于相应的集合中,最后得到三个集合,分别为本体概念集S‑set、个体实例集I‑set和属性集P‑set。这三个集合分别对应于三元组的Subject、Object和Predicate,随后分析概念之间以及概念与个体之间的关系,将所有可能产生的概念关联都构建成三元组模式的查询语句提交检索模块;3)当用户输入检索词、检索拼音词义后,查询请求处理模块对查询语句进行分析,从中提取出能正确表达查询拼音语义的概念性词或词组;然后将其带到本体中查找相应的概念,并对概念进行拼音语义化处理,得到一个检索式集合,再由检索代理从知识库中匹配出符合条件的元组集;该部分包括三方面工作:(1)基于本体的拼音语义查询扩展;(2)查询语句的规范与重构;(3)信息检索;4)通过索引库从文档集中把文档检索出来之后,得到的是一系列无序文档,在递交给用户之前需对文档进行排序;计算查询与文档之间的相关度,通过TF‑IDF算法来确定实例的标注权重,这样文档Dj就被简化为实例的集合;5)检索模块将结构化检索条件与知识库中RDF三元组进行匹配,并返回匹配的所有元组,通过查找实例‑文档的索引库,返回无序文档集,排序模块对文档排序后返回。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州广思信息网络有限公司,未经贵州广思信息网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810839933.8/,转载请声明来源钻瓜专利网。