[发明专利]一种基于目标知识点的句群抽取方法及装置有效
申请号: | 201510859508.1 | 申请日: | 2015-11-30 |
公开(公告)号: | CN105512238B | 公开(公告)日: | 2019-06-04 |
发明(设计)人: | 成洪甲;叶茂;徐剑波 | 申请(专利权)人: | 北大方正集团有限公司;北京方正阿帕比技术有限公司;北京大学 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F17/27 |
代理公司: | 北京三聚阳光知识产权代理有限公司 11250 | 代理人: | 马永芬 |
地址: | 100871 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 目标 知识点 抽取 方法 装置 | ||
一种基于目标知识点的句群抽取方法及装置,该方法包括如下步骤:获取知识点的精确属性;利用精确属性在待处理数字资源中抽取知识点的模糊属性;利用精确属性和模糊属性在待处理数字资源中进行知识点的句群挂接,获取知识点句群。通过加入知识点的精确属性和模糊属性,提高了知识点句群抽取的准确性。
技术领域
本发明涉及数字资源加工领域,具体涉及一种基于目标知识点的句群抽取方法及装置。
背景技术
自然语言处理是一个当前研究比较热门的领域,而从大量文本语料中抽取知识点相关信息又是自然语言处理中的一个研究热点。目前,以章节形式存储的知识资源非常的丰富,但是以句子为单位组织起来的知识片段资源十分的匮乏,知识点的句群挂接实现了以句子为单位组织起来的知识片段资源。知识点的句群挂接是通过对语料进行内容分析和处理,将语料中蕴含的与知识点相关的句子逐条抽取出来形成知识片段。句群,又叫句组,是几个在意义和结构上有密切联系的各自独立的句子组成的言语交际单位。即:由前后连贯共同表示一个中心意思的几个句子组成。句群抽取是指抽取前后连贯、密切联系,共同阐述一个概念或主题的若干句子,组成表达一个中心意思的句群。句群抽取是知识抽取的一种常用方法,但是现有的句群抽取方法抽取的知识点句群准确性不高,因此目前亟需一种准确性高的句群抽取方法。
发明内容
因此,本发明要解决的技术问题在于现有的知识点句群抽取方法准确性不高。
为此,本发明实施例提供了如下技术方案:
一种基于目标知识点的句群抽取方法,包括如下步骤:
获取知识点的精确属性,精确属性是描述知识点具体属性的数据;
利用精确属性在待处理数字资源中抽取知识点的模糊属性;
利用精确属性和模糊属性在待处理数字资源中进行知识点的句群挂接,获取知识点句群。
优选地,利用精确属性在待处理数字资源中抽取知识点的模糊属性的步骤包括:
在待处理数字资源中获取包含知识点的多个段落,根据精确属性分别计算每个段落的第一得分;
根据第一得分将包含知识点的段落降序排序;
按照排序结果从前提取预设数量的段落;
对提取的段落进行分句;
对包含知识点的分句以及其前后句子进行分词;
对分词结果进行过滤;
统计过滤后的分词词频并按照词频进行降序排列,并按照排序结果从前提取预设数量的分词作为该知识点的模糊属性。
优选地,包含知识点的段落的第一得分是通过以下公式计算得到的:
其中,n为知识点在该段落中出现的次数,v为知识点的权重,ni为第i个精确属性在段落中出现的次数,vi为第i个精确属性的权重。
优选地,模糊属性的词性相同。
优选地,利用精确属性和模糊属性在待处理数字资源中进行知识点的句群挂接的步骤包括:
根据精确属性和模糊属性计算包含知识点的段落的第二得分,并进行降序排序;
按照排序结果从前提取预设数量的段落;
对提取的段落进行分句;
根据分句后的段落获取多个初始句群,初始句群是从段落的第一句开始取前后连贯的预设数量的句子形成的;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京方正阿帕比技术有限公司;北京大学,未经北大方正集团有限公司;北京方正阿帕比技术有限公司;北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510859508.1/2.html,转载请声明来源钻瓜专利网。