[发明专利]一种面向在线百科的实体属性抽取方法及系统有效
申请号: | 201410065743.7 | 申请日: | 2014-02-26 |
公开(公告)号: | CN103853823B | 公开(公告)日: | 2017-01-18 |
发明(设计)人: | 程学旗;贾岩涛;张泽慧;王元卓;冯凯;熊锦华;许洪波 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京泛华伟业知识产权代理有限公司11280 | 代理人: | 王勇,李科 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种面向在线百科的实体属性抽取方法及系统,该方法包括在待抽取的在线百科网页文本集合T中选择一个页面,抽取该页面的实体属性表达规则,得到当前规则集合。该方法还包括使用当前规则集合对所述待抽取的在线百科网页文本集合T进行实体属性抽取,并且根据抽取得到的实体属性抽取T的实体属性表达规则,用抽取得到的规则集合作为当前规则集合并重复这一过程k次,得到最终规则集合。使用所述最终规则集合对T进行实体属性抽取。本发明提供的实体属性抽取方法能够适应文本结构的变化,适用于各种在线百科,具有召回率高并且准确率高的效果。 | ||
搜索关键词: | 一种 面向 在线 百科 实体 属性 抽取 方法 系统 | ||
【主权项】:
一种面向在线百科的实体属性抽取方法,包括:步骤1)、在待抽取的在线百科网页文本集合T中选择一个页面,抽取该页面的实体属性表达规则,根据所述实体属性表达规则在所述页面中出现的位置,对每条实体属性表达规则赋权重,以得到当前规则集合;其中,出现在所述页面中属性描述部分的实体属性表达规则的权重大于出现在所述页面中非属性描述部分且没有出现在属性描述部分的实体属性表达规则的权重;步骤2)、使用当前规则集合对所述待抽取的在线百科网页文本集合T进行实体属性抽取,并且根据抽取得到的实体属性,抽取T的实体属性表达规则,用抽取得到的规则集合作为当前规则集合并重复这一过程k次,得到最终规则集合;其中k为非负整数;步骤3)、使用所述最终规则集合对T进行实体属性抽取。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410065743.7/,转载请声明来源钻瓜专利网。
- 上一篇:便携式钢架椅
- 下一篇:一种数据处理方法及系统