[发明专利]一种获取领域重要知识点的方法和系统有效
申请号: | 201410497611.1 | 申请日: | 2014-09-26 |
公开(公告)号: | CN105468657B | 公开(公告)日: | 2019-06-04 |
发明(设计)人: | 叶茂;徐剑波;汤帜;张杰;成洪甲 | 申请(专利权)人: | 北大方正集团有限公司;北京方正阿帕比技术有限公司;北京大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/332 |
代理公司: | 北京三聚阳光知识产权代理有限公司 11250 | 代理人: | 张建纲 |
地址: | 100871 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 获取 领域 重要 知识点 方法 系统 | ||
1.一种获取领域重要知识点的方法,其特征在于,包括:
对领域文本进行分词,得到分词结果;
根据分词结果和常用词,确定候选知识点;
确定每个候选知识点的语义向量;
计算候选知识点之间的语义相似度,得到相似度矩阵;
利用所述相似度矩阵进行迭代,确定每个候选知识点的重要度信息,该所述利用所述相似度矩阵进行迭代,确定每个候选知识点的重要度信息还包括:
设置导航度的初始值;
将所述相似度矩阵与所述导航度的值进行迭代,确定权威度信息和所述导航度的最终值;
根据所述权威度信息和所述导航度的最终值,确定每个候选知识点的重要度信息;
根据所述重要度信息确定重要知识点。
2.根据权利要求1所述的方法,其特征在于,对领域文本进行分词,得到分词结果的处理,包括:
选择领域数字资源,从中抽取文本;
使用分词器对所述文本进行分词,得到分词后的文件,作为候选文件。
3.根据权利要求1或2所述的方法,其特征在于,所述根据分词结果和常用词,确定候选知识点的过程,包括:
选择常用文本的数字资源,对其进行分词确定常用词;
将候选文件中的词语去除所述常用词,得到候选知识点。
4.根据权利要求1所述的方法,其特征在于,所述确定每个候选知识点的语义向量的过程,包括:
确定每个候选知识点在候选文件中出现的次数;
根据每个候选知识点和该候选知识点在候选文本中出现的次数,计算带权路径长度最小的二叉树;
根据每个候选知识点在所述候选文本中的位置和带权路径长度最小的二叉树,确定每个候选知识点的语义向量。
5.根据权利要求4所述的方法,其特征在于,所述根据每个知识点在所述候选文本中的位置和带权路径长度最小的二叉树,确定每个知识点的语义向量的过程,包括:
选择一个神经网络模型;
以所述候选文件为训练样本,所述带权路径长度最小的二叉树为输出层,进行训练;
训练完成后,根据带权路径长度最小的二叉树中的节点向量获得每个候选知识点的语义向量。
6.根据权利要求1所述的方法,其特征在于,计算候选知识点之间的语义相似度,得到相似度矩阵,包括:
所述语义相似度的计算方法为:
其中,X、Y为需要比较相似度的两个m列的向量,f(X,Y)为X、Y的语义相似度。
7.根据权利要求1所述的方法,其特征在于,计算候选知识点之间的语义相似度,得到相似度矩阵,包括:
所述语义相似度的计算方法为:
其中,X、Y为需要比较相似度的两个m列的向量,f(X,Y)为X、Y的语义相似度。
8.根据权利要求1所述的方法,其特征在于,所述根据所述权威度信息和所述导航度的最终值,确定每个候选知识点的重要度信息的处理,包括:
Ti=Ai×Hi;
其中,候选知识点的重要度组成的重要度矩阵为T,H为导航度矩阵;A为权威度矩阵,这三个矩阵都是n行1列矩阵,n为候选中知识点的数目;Ti为重要度矩阵T中的第i行元素的值,Ai为权威度矩阵A中的第i行元素的值,Hi为导航度矩阵H中的第i行元素的值,i=1,…n;Ti=Ai×Hi表示矩阵A中的第i行的值乘以矩阵H中第i行的值,得到矩阵T中第i行的值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京方正阿帕比技术有限公司;北京大学,未经北大方正集团有限公司;北京方正阿帕比技术有限公司;北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410497611.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种信息采集方法及装置
- 下一篇:一种动态网页的图片加载方法、装置和系统