[发明专利]基于RDF知识库的语义标注方法有效

专利信息
申请号: 201210199921.6 申请日: 2012-06-14
公开(公告)号: CN102779161A 公开(公告)日: 2012-11-14
发明(设计)人: 杜小勇;陈跃国;陈晋川;杜方 申请(专利权)人: 杜小勇
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京同立钧成知识产权代理有限公司 11205 代理人: 刘芳
地址: 100872 北京市海淀*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 rdf 知识库 语义 标注 方法
【说明书】:

技术领域

发明涉及计算机技术,尤其涉及一种基于RDF知识库的语义标注方法。

背景技术

非结构化数据是指包括文本数据、网页信息、邮件、图形图像、音频视频等,没有显式数据结构的数据。由于这些数据的数据来源多样化,并且数据中存在较多冗余、错误和语义不明确的信息,因此在对非结构化数据进行利用之前,需要对非结构化数据进行语义标注。

目前,利用传统的自然语言处理方法并结合数据挖掘工具,通过对非结构化数据进行词法和语法分析,对非结构化数据的词性和语义等信息进行标注。

但是采用分析词法和语法的方法对非结构化数据进行标注,需要预先定义复杂的自然语言模型,或者利用人工标记的种子,采用有监督或者半监督的方法来实现。因此现有技术中对非结构化数据进行标注的方法,在处理效率方面存在不足。

发明内容

本发明提供一种基于RDF知识库的语义标注方法,用以提高对非结构化数据进行语义标注的效率。

本发明所提供的基于RDF知识库的语义标注方法包括:

以待标注数据为关键字遍历资源描述架构RDF知识库,所述RDF知识库中存储有至少一个实体名以及与各所述实体名对应的一个或多个属性信息,获取与所述待标注数据模糊匹配的一个或多个匹配的属性信息;

将获取到的分别与各所述匹配的属性信息对应的实体名作为第一标注信息,并为所述第一标注信息中的各实体名分别分配预设的第一权值;

将根据实体邻居表获取到的、与所述第一标注信息中的各实体名具有邻居关系的一个或多个实体名作为第二标注信息,并为所述第二标注信息中的各实体名分别分配预设的第二权值;其中,所述第二权值小于所述第一权值,所述实体邻居表指示所述RDF知识库中的各实体名之间的邻居关系;

对获取到的各实体名的权值进行统计,将最终权值最高的实体名作为所述待标注数据的语义标注信息输出。

本发明各实施例提供的基于RDF知识库的语义标注方法,通过在RDF知识库中查询与待标注数据模糊匹配的属性信息,将该匹配的一个或多个匹配的属性信息分别对应的实体名,作为第一标注信息,该第一标注信息中的实体名分别具有第一权值;并利用实体邻居表,将与第一标注信息中的实体名具有邻居关系的各实体名,作为第二标注信息,该第二标注信息中的实体名分别具有第二权值;对各实体名的权值进行统计,将权值最高的实体名作为待标注数据的语义标注信息,不仅在标注过程中考虑到了实体之间的相关性,提高了对非结构化数据进行语义标注的准确性;并且由于本发明实施例中的方法无需采用复杂的算法和监督训练的方式,有效地提高了对非结构化数据进行语义标注的效率。

附图说明

图1为本发明基于RDF知识库的语义标注方法一实施例的流程图;

图2为本发明基于RDF知识库的语义标注方法另一实施例的流程图;

图3为本发明基于RDF知识库的语义标注方法又一实施例的流程图。

具体实施方式

本发明各实施例中进行语义标注的对象为文本类型的非结构化数据,利用信息抽取技术,从非结构化数据中抽取出待进行语义标注的数据,以下各实施例中所述的待标注数据,即为从非结构化数据中抽取出的数据;从非结构化数据中抽取出的待标注数据可以为词语、短语或者系统预设长度的句子;进而利用本发明各实施例中的方法对抽取出的待标注数据进行语义标注。

本发明的各实施例基于云平台实现对非结构化数据的语义标注。在具体应用中,可以采用2-3台或更多台可搭建云平台的普通计算机来搭建云平台,还可以采用一台较高配置的服务器虚拟为多台计算机来搭建云平台。在基于云平台的计算机系统中,通过主控计算机,即Name节点,将待进行处理的数据上传到云平台上进行处理。

图1为本发明基于RDF知识库的语义标注方法一实施例的流程图,如图1所示,该方法包括:

步骤101、以待标注数据为关键字遍历资源描述架构RDF知识库,所述RDF知识库中存储有至少一个实体名以及与各所述实体名对应的一个或多个属性信息,获取与所述待标注数据模糊匹配的一个或多个匹配的属性信息。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杜小勇,未经杜小勇许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210199921.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top