[发明专利]一种相关知识点的获取方法及系统在审
申请号: | 201410497470.3 | 申请日: | 2014-09-26 |
公开(公告)号: | CN105608075A | 公开(公告)日: | 2016-05-25 |
发明(设计)人: | 叶茂;徐剑波;汤帜;杨亮;卢菁 | 申请(专利权)人: | 北大方正集团有限公司;北京方正阿帕比技术有限公司;北京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京三聚阳光知识产权代理有限公司 11250 | 代理人: | 张建纲 |
地址: | 100871 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 相关 知识点 获取 方法 系统 | ||
技术领域
本发明涉及一种电数字数据处理领域,具体地说是一种相关知识点的获 取方法及系统。
背景技术
数字出版资源已成为信息提供的主要方式之一。人们已从纸质阅读大量 地转向电子阅读。数字出版资源包含电子图书、数字百科全书、数字期刊、 数字报刊等。数字出版资源提供的信息通常比互联网更加权威和正确。因此, 如何根据数字出版资源的特点提高人们学习或阅读体验变得尤为重要。
百科全书(Encyclopedia)是介绍人类的全部知识或某一类知识的工具 书。往往按照辞典形式编排(以条目为基本单元),收集各知识领域的名词、 熟语、地名、事件、人物、著作等。百科全书可以是综合性的,包含所有领 域的相关内容(例如,《大不列颠百科全书》就是一部著名的综合性百科全 书)。也可以是专业性的百科全书,如某一个领域的百科全书,像历史百科 全书、军事百科全书等,这种某一个领域的百科全书称为领域百科全书。百 科全书被视为是一个国家和一个时代科学文化发展的标志。
领域百科全书将海量的信息分类,为用户提供更有针对性的资源。领域 百科全书也是一种重要的数字出版资源。领域百科全书通常以词条的方式组 织领域信息。领域百科全书需要包含领域内的重要词条。然而,建设领域百 科全书需要大量人力投入。由于领域词条数目较多,因此通过人工的方式寻 找合适的领域词条不仅耗时,而且容易遗漏一些很相关的领域词条。如何确 定相关的这些词条是否都已经收录是一项很重要的工作,但是实现起来需要 花费大量的人力和时间。
Distributedwordsrepresentations(分布式词语表示)在Rumelhar, D.E.,Hinton,G.E.,Williams,R.J.:LearningRepresenationsby Back-propagatingErrors.Nature323(6088):pp533-536(1986)中首次提 出,该思想将词语表示成连续向量(continuousvectors),且在向量空间中, 相似词语的距离更近。Feedforwardneuralnetwork(前馈神经网络)是用 于学习词向量和语言模型的方法(见Bengio,Y.,Ducharme,R.,Vincent, P.:ANeuralProbabilisticLanguageModel.JournalofMachineLearning Research3,pp1137-1155(2003))。近来,Mikolov提出了使用skip-gram 或CBOW模型,通过在大量文本上训练简单的神经网络在短时间内得到词语向 量。虽然关于语义向量在理论上已经有一些研究,但是仍然缺少该技术的应 用推广。
发明内容
为此,本发明所要解决的技术问题在于现有技术中获取相关词条需要人 为筛选、工作量大、客观性差的问题,从而提出一种根据语义向量来确定相 关知识点的方法。
为解决上述技术问题,本发明的提供一种相关知识点的获取方法和系 统。
本发明提供一种相关知识点的获取方法,包括:
获取领域知识点;
根据所述领域知识点对文本进行分词,得到分词结果;
根据分词结果和常用词,确定候选知识点;
确定每个候选知识点的语义向量;
对于每个领域知识点,计算该领域知识点与候选知识点的语义相似度;
根据计算出的语义相似度,确定与该领域知识点相关的目标知识点。
本发明还提供一种获取知识点的相关知识点的系统,包括:
提取单元:获取领域知识点;
分词单元:根据所述领域知识点对文本进行分词,得到分词结果;
候选单元:根据分词结果和常用词,确定候选知识点;
语义向量计算单元:确定每个候选知识点的语义向量;
相似度计算单元:对于每个领域知识点,计算该领域知识点与候选知识 点的语义相似度;
相关知识点计算单元:根据计算出的语义相似度,确定与该领域知识点 相关的目标知识点。
本发明的上述技术方案相比现有技术具有以下优点,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京方正阿帕比技术有限公司;北京大学,未经北大方正集团有限公司;北京方正阿帕比技术有限公司;北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410497470.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:网页页面布局的调整方法及装置
- 下一篇:信息提取支持设备和方法