[发明专利]基于多粒度语义块的实体属性和属性值提取方法有效
申请号: | 201611241946.2 | 申请日: | 2016-12-29 |
公开(公告)号: | CN106777275B | 公开(公告)日: | 2018-03-06 |
发明(设计)人: | 张春霞;彭飞;郭钰;王树良;刘振岩 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京理工正阳知识产权代理事务所(普通合伙)11639 | 代理人: | 毛燕 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于多粒度语义块的实体属性和属性值提取方法,属于Web挖掘和信息抽取技术领域;包括如下步骤构建语料集并进行自由文本提取;对语料进行分词、词性标注以及短语识别;对语料进行语义角色标注;对语料进行依存句法分析;对语料进行语义依存分析;提取基于词语、短语和语义角色三种粒度的候选实体、属性及其属性值三元组;利用经训练的分类器对候选实体、属性和属性值三元组进行正确和错误分类。对比现有技术,本发明通过从自由文本中自动提取词语、短语和语义角色三种粒度的实体、属性和属性值,提高了实体的属性和属性值提取的准确性和效率,在主题检测、信息检索、自动文摘、问答系统等领域具有广阔的应用前景。 | ||
搜索关键词: | 基于 粒度 语义 实体 属性 提取 方法 | ||
【主权项】:
一种基于多粒度语义块的实体属性和属性值提取方法,其特征在于:包括以下步骤:步骤1,构建实体的属性和属性值提取语料集;步骤2,对属性和属性值提取语料集中自由文本的句子进行分词、词性标注和短语识别;步骤3,对属性和属性值提取语料集中自由文本的句子进行语义角色标注;步骤4,对属性和属性值提取语料集中自由文本的句子进行依存句法分析;步骤5,对属性和属性值提取语料集中自由文本的句子进行语义依存分析;步骤6:根据句子的分词、词性标注和语义角色标注结果,提取以语义角色为粒度的候选实体、属性和属性值,获取候选实体、属性和属性值三元组;步骤7:根据句子的分词、词性标注、短语识别和依存句法分析结果,提取以短语为粒度的候选实体、属性和属性值,获取候选实体、属性和属性值三元组;步骤8:根据句子的分词、词性标注和语义依存分析结果,提取以词语为粒度的候选实体、属性和属性值,获取候选实体、属性和属性值三元组;步骤9:利用经训练的分类器对由步骤6~步骤8获取的候选实体、属性和属性值三元组进行正确和错误分类以得到最终的实体属性和属性值提取结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611241946.2/,转载请声明来源钻瓜专利网。