[发明专利]基于多粒度语义块的实体属性和属性值提取方法有效

申请号：	201611241946.2	申请日：	2016-12-29
公开（公告）号：	CN106777275B	公开（公告）日：	2018-03-06
发明（设计）人：	张春霞;彭飞;郭钰;王树良;刘振岩	申请（专利权）人：	北京理工大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	北京理工正阳知识产权代理事务所(普通合伙)11639	代理人：	毛燕
地址：	100081 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种基于多粒度语义块的实体属性和属性值提取方法，属于Web挖掘和信息抽取技术领域；包括如下步骤构建语料集并进行自由文本提取；对语料进行分词、词性标注以及短语识别；对语料进行语义角色标注；对语料进行依存句法分析；对语料进行语义依存分析；提取基于词语、短语和语义角色三种粒度的候选实体、属性及其属性值三元组；利用经训练的分类器对候选实体、属性和属性值三元组进行正确和错误分类。对比现有技术，本发明通过从自由文本中自动提取词语、短语和语义角色三种粒度的实体、属性和属性值，提高了实体的属性和属性值提取的准确性和效率，在主题检测、信息检索、自动文摘、问答系统等领域具有广阔的应用前景。
搜索关键词：	基于粒度语义实体属性提取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于多粒度语义块的实体属性和属性值提取方法，其特征在于：包括以下步骤：步骤1，构建实体的属性和属性值提取语料集；步骤2，对属性和属性值提取语料集中自由文本的句子进行分词、词性标注和短语识别；步骤3，对属性和属性值提取语料集中自由文本的句子进行语义角色标注；步骤4，对属性和属性值提取语料集中自由文本的句子进行依存句法分析；步骤5，对属性和属性值提取语料集中自由文本的句子进行语义依存分析；步骤6：根据句子的分词、词性标注和语义角色标注结果，提取以语义角色为粒度的候选实体、属性和属性值，获取候选实体、属性和属性值三元组；步骤7：根据句子的分词、词性标注、短语识别和依存句法分析结果，提取以短语为粒度的候选实体、属性和属性值，获取候选实体、属性和属性值三元组；步骤8：根据句子的分词、词性标注和语义依存分析结果，提取以词语为粒度的候选实体、属性和属性值，获取候选实体、属性和属性值三元组；步骤9：利用经训练的分类器对由步骤6～步骤8获取的候选实体、属性和属性值三元组进行正确和错误分类以得到最终的实体属性和属性值提取结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京理工大学，未经北京理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201611241946.2/，转载请声明来源钻瓜专利网。

上一篇：一种中文旅游领域知识图谱构建方法及系统
下一篇：用户信息的索引存储及原生信息展示的方法和装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于多粒度语义块的实体属性和属性值提取方法有效

专利文献下载