[发明专利]一种基于目标知识点的句群抽取方法及装置有效

专利信息
申请号: 201510859508.1 申请日: 2015-11-30
公开(公告)号: CN105512238B 公开(公告)日: 2019-06-04
发明(设计)人: 成洪甲;叶茂;徐剑波 申请(专利权)人: 北大方正集团有限公司;北京方正阿帕比技术有限公司;北京大学
主分类号: G06F16/31 分类号: G06F16/31;G06F17/27
代理公司: 北京三聚阳光知识产权代理有限公司 11250 代理人: 马永芬
地址: 100871 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 目标 知识点 抽取 方法 装置
【权利要求书】:

1.一种基于目标知识点的句群抽取方法,其特征在于,包括如下步骤:

获取知识点的精确属性,所述精确属性是描述知识点具体属性的数据;

利用所述精确属性在待处理数字资源中抽取知识点的模糊属性;

在所述待处理数字资源中获取包含知识点的多个段落,根据所述精确属性分别计算每个段落的第一得分;

根据所述第一得分将所述包含知识点的段落降序排序;

按照排序结果从前提取预设数量的段落;

对提取的所述段落进行分句;

对包含知识点的分句以及其前后句子进行分词;

对分词结果进行过滤;

统计过滤后的分词词频并按照词频进行降序排列,并按照排序结果从前提取预设数量的分词作为该知识点的模糊属性;

利用所述精确属性和所述模糊属性在所述待处理数字资源中进行知识点的句群挂接,获取知识点句群。

2.如权利要求1所述的方法,其特征在于,所述包含知识点的段落的第一得分是通过以下公式计算得到的:

其中,n为知识点在该段落中出现的次数,v为知识点的权重,ni为第i个精确属性在段落中出现的次数,vi为第i个精确属性的权重。

3.如权利要求1所述的方法,其特征在于,所述模糊属性的词性相同。

4.如权利要求1所述的方法,其特征在于,所述利用所述精确属性和所述模糊属性在所述待处理数字资源中进行知识点的句群挂接的步骤包括:

根据所述精确属性和所述模糊属性计算包含知识点的段落的第二得分,并进行降序排序;

按照排序结果从前提取预设数量的段落;

对提取的所述段落进行分句;

根据分句后的所述段落获取多个初始句群,所述初始句群是从所述段落的第一句开始取前后连贯的预设数量的句子形成的;

根据判断要素确定出需要进行扩展的初始句群并进行扩展以生成句群,所述判断要素包括待扩展句群前面或后面句子的得分和句群字符数;

删除不包含知识点的句群;

删除相似度大于相似度阈值的句群组中权重值小的句群,剩下的即为抽取的知识点句群。

5.如权利要求4所述的方法,其特征在于,所述包含知识点的段落的第二得分是通过以下公式计算得到的:

其中,n为知识点在段落中出现的次数,v为知识点的权重,ni为第i个精确属性在段落中出现的次数,vi为第i个精确属性的权重,kj为第j个模糊属性在段落中出现的次数,lj为第j个模糊属性的权重。

6.如权利要求4所述的方法,其特征在于,根据判断要素确定出需要进行扩展的初始句群并进行扩展以生成句群的步骤包括:

计算权重阈值;

对于句群字符数小于句群最大长度的待扩展初始句群,如果该待扩展初始句群前面或后面句子的得分不小于所述权重阈值,则相应地向前或者向后进行扩展;

对于已经进行过向前或向后扩展的句群,如果其句群字符数小于句群最大长度且没有达到向前或者向后扩展句子的数量限制,并且其前面或者后面的句子的得分不小于所述权重阈值,则相应地向前或者向后进行扩展。

7.如权利要求4所述的方法,其特征在于,所述待扩展句群前面或者后面句子的得分是通过以下公式计算得到的:

score3=s×factor1,

其中,s为该句子中的关键词得分的和,所述关键词包括知识点、精确属性和模糊属性;

其中,g为句子中知识点出现的次数,m为句子中精确属性出现的次数,hi为句子中出现的第i个模糊属性的自身得分,zi为第i个模糊属性在该句子中出现的次数,t为该句子中出现的不同模糊属性的个数,max为模糊属性中的最高分;

其中,

其中,nowSize为待扩展句群本身的长度,newSize为该句子的长度,sigema为设定的调整因子,E为句群期望长度。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京方正阿帕比技术有限公司;北京大学,未经北大方正集团有限公司;北京方正阿帕比技术有限公司;北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510859508.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top