[发明专利]一种知识库的组织方法及装置、计算机存储介质有效
申请号: | 201710911400.1 | 申请日: | 2017-09-29 |
公开(公告)号: | CN107622129B | 公开(公告)日: | 2020-03-24 |
发明(设计)人: | 冯林;刘昕;况铁梅;姚琪;曾启文 | 申请(专利权)人: | 咪咕文化科技有限公司 |
主分类号: | G06F16/21 | 分类号: | G06F16/21;G06N5/02 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 王姗姗;张颖玲 |
地址: | 100032 北京市西城区德*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 知识库 组织 方法 装置 计算机 存储 介质 | ||
本发明公开了一种知识库的组织方法及装置、计算机存储介质,所述方法包括:构建专业词库通用词库对应的张量空间;基于所述通用词库对应的张量空间,确定各目标文本在所述张量空间中的张量;基于所述通用词库对应的张量空间,确定目标专业领域词库对应于所述张量空间中的基矢;基于所述目标专业领域词库对应于所述张量空间中的基矢,计算所述各目标文本的张量在所述基矢中的投影分量;基于所述各目标文本的投影分量,确定各目标文本之间的关系,以组织知识库。
技术领域
本发明涉及知识管理技术领域,尤其涉及一种知识库的组织方法及装置、计算机存储介质。
背景技术
知识库的构建方式分为人工构建和自动构建,其中,人工构建又可分为专家构建和群体协作,自动构建是基于计算机按照一定的规则对自然语言文本进行提取而实现。
知识库的构建原理一般由以下几部分组成:1)确定要管理的知识,即:确定知识库的范围和边界;2)确定知识的来源和动力,即:确定知识库中知识的来源和持续更新的动力;3)知识库的组织,即:将零散、非关联的知识碎片,整理成系统化分类的相互关联的知识库;4)知识库的利用,即:通过建立的知识库实现知识的利用价值。
对于专家构建方式而言,这种构建方式效率低且成本高昂,难以应对目前互联网带来的知识爆炸和快速更新,不适合构建大规模的知识库;对于群体协作方式而言,这种构建方式专业领域的知识覆盖面小,且由于其开放性,如果不进行人工审核,则会引入大量无效、不相关的信息,如果进行人工审核,又不能做到高效和低成本的特性。对于自动构建方式而言,它是由计算机按照一定的程序逻辑处理原始的自然语言文本集合,提取知识点\条目\文章,自动地构建知识库。
从知识库的构建原理和自动构建知识库的方法可以看出,由计算机自动构建知识库是知识库构建的发展趋势。计算机所采用的处理逻辑是由一系列的数学概率统计方法对文本进行处理,最后按照设定的评价方式进行选择,从而输出知识库。结合知识库的构建原理和计算机自动构建知识库的方法可以看出,对于计算机构建知识库而言,最核心的部分是知识库的组织。
现有技术中,在通过计算机自动构建知识库时,仅仅是基于文本中词的词频和逆文本频率等因素对文本进行分类,分类的准确性较低。
发明内容
为解决上述技术问题,本发明实施例提供了一种知识库的组织方法及装置、计算机存储介质。
本发明实施例提供的知识库的组织方法,包括:
构建通用词库对应的张量空间;
基于所述通用词库对应的张量空间,确定各目标文本在所述张量空间中的张量;
基于所述通用词库对应的张量空间,确定目标专业领域词库对应于所述张量空间中的基矢;
基于所述目标专业领域词库对应于所述张量空间中的基矢,计算所述各目标文本的张量在所述基矢中的投影分量;
基于所述各目标文本的投影分量,确定各目标文本之间的关系,以组织知识库。
本发明实施例中,所述构建通用词库对应的张量空间,包括:
建立基础词库,以及获取通用词库对应的语料库;
基于所述基础词库,对所述语料库进行分词处理,得到第一单词集合,其中,所述第一单词集合形成原始通用词库;
计算所述原始通用词库中的各个单词的第一信息熵值;
从所述原始通用词库中选择出第一信息熵值大于等于预设信息熵阀值的单词,得到第二单词集合,其中,所述第二单词集合形成通用词库;
以所述通用词库中的每个单词作为一个维度,形成N维高阶张量空间,其中,N为通用词库中包括的单词个数,N为正整数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于咪咕文化科技有限公司,未经咪咕文化科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710911400.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据库删除数据优化算法
- 下一篇:一种数据库升级优化算法