[发明专利]一种面向在线百科的实体属性抽取方法及系统有效

专利信息
申请号: 201410065743.7 申请日: 2014-02-26
公开(公告)号: CN103853823B 公开(公告)日: 2017-01-18
发明(设计)人: 程学旗;贾岩涛;张泽慧;王元卓;冯凯;熊锦华;许洪波 申请(专利权)人: 中国科学院计算技术研究所
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京泛华伟业知识产权代理有限公司11280 代理人: 王勇,李科
地址: 100190 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 在线 百科 实体 属性 抽取 方法 系统
【权利要求书】:

1.一种面向在线百科的实体属性抽取方法,包括:

步骤1)、在待抽取的在线百科网页文本集合T中选择一个页面,抽取该页面的实体属性表达规则,得到当前规则集合;

步骤2)、使用当前规则集合对所述待抽取的在线百科网页文本集合T进行实体属性抽取,并且根据抽取得到的实体属性抽取T的实体属性表达规则,用抽取得到的规则集合作为当前规则集合并重复这一过程k次,得到最终规则集合;其中k为非负整数;

步骤3)、使用所述最终规则集合对T进行实体属性抽取。

2.根据权利要求1所述的方法,其中,步骤1)包括:

步骤11)、在待抽取的在线百科网页文本集合T中选择一个页面;

步骤12)、标注该页面的实体属性,得到实体属性集合U;

步骤13)、根据实体属性集合U,抽取该页面的实体属性表达规则,得到规则集合R。

3.根据权利要求2所述的方法,其中,步骤13)还包括:

根据实体属性表达规则在所述页面中出现的位置,对R中的每条实体属性表达规则赋权重;其中,出现在所述页面中属性描述部分的实体属性表达规则的权重大于出现在所述页面中非属性描述部分且没有出现在属性描述部分的实体属性表达规则的权重。

4.根据权利要求3所述的方法,其中,步骤2)包括:

步骤21)、使用规则集合R对所述待抽取的在线百科网页文本集合T进行实体属性抽取;

步骤22)、根据实体属性在页面中出现的位置以及抽取出该实体属性的实体属性表达规则的权重,从抽取得到的实体属性得到实体属性集合U';

步骤23)、根据实体属性集合U'抽取T的实体属性表达规则,得到规则集合R';

步骤24)、将R更新为R'并返回步骤21)直到该过程重复了k次,得到最终规则集合;其中k为非负整数。

5.根据权利要求4所述的方法,其中,步骤22)包括:

步骤a)、根据实体属性在页面中出现的位置以及抽取出该实体属性的实体属性表达规则的权重,对该实体属性赋权重;

步骤b)、选择权重值最高的n个实体属性,得到实体属性集合U';其中n为正整数。

6.根据权利要求5所述的方法,其中,步骤a)包括:

将出现在页面中属性描述部分的实体属性赋权重α1*β;以及

将出现在页面中非属性描述部分且没有出现在属性描述部分的实体属性赋权重α2*β;

其中,β为抽取出该实体属性的实体属性表达规则的权重,且α2<α1

7.根据权利要求4所述的方法,其中,步骤22)还包括:

将实体属性集合U合并到U'。

8.根据权利要求7所述的方法,其中,步骤24)还包括:

在返回步骤21)时,将U更新为U'。

9.根据权利要求4所述的方法,其中,步骤23)还包括:

根据实体属性表达规则在页面中出现的位置,对规则集合R'中的每条实体属性表达规则赋权重;其中,出现在页面中属性描述部分的实体属性表达规则的权重大于出现在页面中非属性描述部分且没有出现在属性描述部分的实体属性表达规则的权重。

10.根据权利要求9所述的方法,其中,步骤24)还包括:

在抽取得到的实体属性表达规则中,将权重值最高的m个实体属性表达规则作为最终规则集合;其中m为正整数。

11.一种面向在线百科的实体属性抽取系统,包括:

规则获取装置,用于在待抽取的在线百科网页文本集合T中选择一个页面,抽取该页面的实体属性表达规则,得到当前规则集合;

新规则生成装置,用于使用当前规则集合对所述待抽取的在线百科网页文本集合T进行实体属性抽取,并且根据抽取得到的实体属性抽取T的实体属性表达规则,用抽取得到的规则集合作为当前规则集合并重复这一过程k次,得到最终规则集合;其中k为非负整数;以及

实体属性抽取装置,用于使用所述最终规则集合对T进行实体属性抽取。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410065743.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top