[发明专利]一种相关知识点的获取方法及系统在审
申请号: | 201410497470.3 | 申请日: | 2014-09-26 |
公开(公告)号: | CN105608075A | 公开(公告)日: | 2016-05-25 |
发明(设计)人: | 叶茂;徐剑波;汤帜;杨亮;卢菁 | 申请(专利权)人: | 北大方正集团有限公司;北京方正阿帕比技术有限公司;北京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京三聚阳光知识产权代理有限公司 11250 | 代理人: | 张建纲 |
地址: | 100871 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 相关 知识点 获取 方法 系统 | ||
1.一种相关知识点的获取方法,其特征在于:
获取领域知识点;
根据所述领域知识点对文本进行分词,得到分词结果;
根据分词结果和常用词,确定候选知识点;
确定每个候选知识点的语义向量;
对于每个领域知识点,计算该领域知识点与候选知识点的语义相似度;
根据计算出的语义相似度,确定与该领域知识点相关的目标知识点。
2.根据权利要求1所述的获取知识点相关知识点的方法,其特征在于, 根据所述领域知识点对文本进行分词,得到分词结果的处理,包括:
将所述领域知识点加到分词器中;
选择领域数字资源,从中抽取文本;
使用所述分词器对所述文本进行分词,得到分词后的文件,作为候选文 件。
3.根据权利要求1或2所述的获取知识点相关知识点的方法,其特征在 于,所述根据分词结果和常用词,确定候选知识点的过程,包括:
选择常用文本的数字资源,对其进行分词确定常用词;
将候选文件中的词语去除所述常用词,得到候选知识点。
4.根据权利要求1-3任一所述的获取知识点相关知识点的方法,其特征 在于,所述确定每个候选知识点的语义向量的过程,包括:
确定每个候选知识点在候选文件中出现的次数;
根据每个候选知识点和该候选知识点在候选文本中出现的次数,计算带 权路径长度最小的二叉树;
根据每个候选知识点在所述候选文本中的位置和带权路径长度最小的二 叉树,确定每个候选知识点的语义向量。
5.根据权利要求4所述的获取知识点相关知识点的方法,其特征在于, 所述根据每个知识点在所述候选文本中的位置和带权路径长度最小的二叉 树,确定每个知识点的语义向量的过程,包括:
创建神经网络模型;
以所述候选文件为训练样本,所述带权路径长度最小的二叉树为输出层, 进行训练;
训练完成后,根据带权路径长度最小的二叉树中的节点向量获得每个候 选知识点的语义向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京方正阿帕比技术有限公司;北京大学,未经北大方正集团有限公司;北京方正阿帕比技术有限公司;北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410497470.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:网页页面布局的调整方法及装置
- 下一篇:信息提取支持设备和方法