[发明专利]基于知识库的拼音词义检索方法在审

申请号：	201810839933.8	申请日：	2018-07-27
公开（公告）号：	CN109101591A	公开（公告）日：	2018-12-28
发明（设计）人：	李飞;冉玄;张齐春;吴海鹏	申请（专利权）人：	贵州广思信息网络有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	贵阳中新专利商标事务所 52100	代理人：	李亮
地址：	550002 贵州省贵***	国省代码：	贵州;52
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于知识库的拼音词义检索方法。本发明增加了查询语义扩展，可以根据用户提交的检索词推理出与原查询相近或相关的词加入查询系统，以提高检索质量，由于查询扩展和拼音语义标注等都是基于本体进行的，这样就明确了术语的选择范围，限制了对术语可能的解释，可以很好地解决一词多义的现象，增加查询准确率。提高了信息检索效率，解决了以往技术在信息检索中性能瓶颈。
搜索关键词：	拼音知识库检索词义信息检索查询查询扩展查询系统用户提交语义标注语义扩展检索词中性能准确率多义推理瓶颈
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于知识库的拼音词义检索方法，其特征在于，包括如下步骤：1)先对网络上所存在的资源进行预处理，对文档集中的每篇文档进行词汇分析，利用禁用词表去掉文献中的虚词以及对检索作用不大的词、数字、字母及标点符号，仅保留具有实际意义的名词及动词，然后确定索引元素，并在本体中获得能够正确表达文档内容的概念性词或词组；2)判断扩展后的查询词属于三元组哪一部分并将其分别储存于相应的集合中，最后得到三个集合，分别为本体概念集S‑set、个体实例集I‑set和属性集P‑set。这三个集合分别对应于三元组的Subject、Object和Predicate，随后分析概念之间以及概念与个体之间的关系，将所有可能产生的概念关联都构建成三元组模式的查询语句提交检索模块；3)当用户输入检索词、检索拼音词义后，查询请求处理模块对查询语句进行分析，从中提取出能正确表达查询拼音语义的概念性词或词组；然后将其带到本体中查找相应的概念，并对概念进行拼音语义化处理，得到一个检索式集合，再由检索代理从知识库中匹配出符合条件的元组集；该部分包括三方面工作：(1)基于本体的拼音语义查询扩展；(2)查询语句的规范与重构；(3)信息检索；4)通过索引库从文档集中把文档检索出来之后，得到的是一系列无序文档，在递交给用户之前需对文档进行排序；计算查询与文档之间的相关度，通过TF‑IDF算法来确定实例的标注权重，这样文档Dj就被简化为实例的集合；5)检索模块将结构化检索条件与知识库中RDF三元组进行匹配，并返回匹配的所有元组，通过查找实例‑文档的索引库，返回无序文档集，排序模块对文档排序后返回。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于贵州广思信息网络有限公司，未经贵州广思信息网络有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810839933.8/，转载请声明来源钻瓜专利网。

上一篇：基于CMDB的配置项CI拓扑关系可视化方法
下一篇：一种快速低成本的光伏大数据处理平台

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于知识库的拼音词义检索方法在审

专利文献下载