[发明专利]一种获取领域重要知识点的方法和系统有效
申请号: | 201410497611.1 | 申请日: | 2014-09-26 |
公开(公告)号: | CN105468657B | 公开(公告)日: | 2019-06-04 |
发明(设计)人: | 叶茂;徐剑波;汤帜;张杰;成洪甲 | 申请(专利权)人: | 北大方正集团有限公司;北京方正阿帕比技术有限公司;北京大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/332 |
代理公司: | 北京三聚阳光知识产权代理有限公司 11250 | 代理人: | 张建纲 |
地址: | 100871 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 获取 领域 重要 知识点 方法 系统 | ||
本发明提供一种获取领域重要知识点的方法,首先确定领域内的候选知识点,然后计算这些候选知识点的语义向量,根据每个知识点的语义向量计算得到语义相似度矩阵,根据该语义相似度矩阵来计算候选知识点中的重要知识点,这些知识点便是该领域内的重要知识点。当建设或检查领域百科全书时,可以根据这些重要知识点来建立词条,或者检查词条是否完善,将还没有收录的重要知识点增加在需要建设的词条中,通过这种方式来完成领域百科全书的词条的检查和建设。大大降低了人工的工作量,节约了时间成本和人工成本,且避免了人工检查的主观性和标准不统一带来的不准确性,大大提高了效率和准确度。
技术领域
本发明涉及一种数字资源处理领域,具体地说是一种获取领域重要知识点的方法和系统。
背景技术
数字出版资源已成为信息提供的主要方式之一。人们已从纸质阅读大量地转向电子阅读。数字出版资源包含电子图书、数字百科全书、数字期刊、数字报刊等。数字出版资源提供的信息通常比互联网更加权威和正确。因此,如何根据数字出版资源的特点提高人们学习或阅读体验变得尤为重要。
百科全书(Encyclopedia)是介绍人类的全部知识或某一类知识的工具书。往往按照辞典形式编排(以条目为基本单元),收集各知识领域的名词、熟语、地名、事件、人物、著作等。百科全书可以是综合性的,包含所有领域的相关内容(例如,《大不列颠百科全书》就是一部著名的综合性百科全书)。也可以是专业性的百科全书,如某一个领域的百科全书,像历史百科全书、军事百科全书等,这种某一个领域的百科全书称为领域百科全书。百科全书被视为是一个国家和一个时代科学文化发展的标志。
领域百科全书将海量的信息分类,为用户提供更有针对性的资源。领域百科全书也是一种重要的数字出版资源。领域百科全书通常以词条的方式组织领域信息。领域百科全书需要包含领域内的重要词条。然而,建设领域百科全书需要大量人力投入。由于领域词条数目较多,因此通过人工的方式寻找重要的领域词条不仅耗时,而且容易遗漏一些很相关的领域词条。获取领域内重要的词条是很重要的工作,但是实现起来需要花费大量的人力和时间。
Distributed words representations(分布式词语表示)在Rumelhar,D.E.,Hinton,G.E.,Williams,R.J.:Learning Represenations by Back-propagat ingErrors.Nature 323(6088):pp533-536(1986)中首次提出,该思想将词语表示成连续向量(continuous vectors),且在向量空间中,相似词语的距离更近。Feedforward neuralnetwork(前馈神经网络)是用于学习词向量和语言模型的方法(见Bengio,Y.,Ducharme,R.,Vincent,P.:A Neural Probabi l istic Language Model.Journal of MachineLearning Research 3,pp1137-1155(2003))。近来,Mikolov提出了使用skip-gram或CBOW模型,通过在大量文本上训练简单的神经网络在短时间内得到词语向量。虽然关于语义向量在理论上已经有一些研究,但是仍然缺少该技术的应用推广。
发明内容
为此,本发明所要解决的技术问题在于现有技术中需要人工确定领域内的重要词条、花费较多的人力物力、标准不容易、客观性差的问题,从而提出一种标准统一、无需人工处理的自动的获取领域重要知识点的方法。
为解决上述技术问题,本发明的提供一种获取领域重要知识点的方法。
一种获取领域重要知识点的方法,包括:
对领域文本进行分词,得到分词结果;
根据分词结果和常用词,确定候选知识点;
确定每个候选知识点的语义向量;
计算候选知识点之间的语义相似度,得到相似度矩阵;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京方正阿帕比技术有限公司;北京大学,未经北大方正集团有限公司;北京方正阿帕比技术有限公司;北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410497611.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种信息采集方法及装置
- 下一篇:一种动态网页的图片加载方法、装置和系统