[发明专利]一种基于词典的语义知识库的构建方法在审
申请号: | 201410783884.2 | 申请日: | 2014-12-16 |
公开(公告)号: | CN104484411A | 公开(公告)日: | 2015-04-01 |
发明(设计)人: | 倪晚成;赵美静;张海东;林子琦;杨一平 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 宋焰琴 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 词典 语义 知识库 构建 方法 | ||
技术领域
本发明属于计算机语义信息处理技术领域,更具体地涉及一种基于词典的语义知识库的构建方法。
背景技术
随着计算机技术的迅速发展,人类已经进入信息爆炸时代,每天都有海量的数字化信息在生成、存储、传播和转换,人们在更加方便快捷的获取信息的同时,也同时被浩如烟海的信息所淹没,这使得人类对于计算机认知能力的需求越来越大,让计算机理解自然语言的愿望愈加强烈。将计算机与语言学联姻而诞生的自然语言理解研究,使人类语言研究视野进一步扩大,同时信息时代的到来召唤语言研究向技术化层面转向。计算语言学和语言信息处理成为在开阔的学术背景和计算机技术平台上的新开拓。
语言学的研究包括语法、语义和语用三个部分,而句法知识、语义知识、语用知识的基础理论研究也成为语言信息处理领域高难度的前沿课题。乔姆斯基虽然在句法结构规则形式化方面做出了革命性探索,但是仍然无法切合语言信息处理的要求。语用知识的研究是语言学关于会话情景和语境的更高层次的研究,目前国内外关于语用知识的研究较少并且还不够透彻。而语义性作为人类语言的共同本质属性,是计算语言学研究突破的关键所在,语言结构的本体是语义结构体,语言结构的真正研究对象是语义结构单位和语义结构关系。目前面向语言信息处理的语言研究最大的瓶颈就是语义。
语义相似度计算、潜在语义分析、语义角色标注等技术是语义信息处理领域的研究热点。语义相似度计算技术能在特定语义理论下,查询语义关系,计算词语之间的语义距离;潜在语义分析通过对大量的文本集进行统计分析,提取出词语的上下文使用含义,自动生成关键字之间的映射规则;语义角色标注不对句子做详细的语义分析,它通过机器学习的方法,标注句子中某些成分的语义角色。这些技术的共同点为都属于浅层语义分析,且都需要大规模语料库及语义知识库的支撑。
从20世纪80年代中期以来,语义词典和语义知识库建设蓬勃发展,出现了如WordNet、FrameNet、Mindnet、HNC和HowNet的大规模语义知识工程。若干有代表性的语义知识库构建如下表所述:
语义知识库在语义信息处理领域发挥了巨大的作用,同时,现有语义知识库也存在着明显的不足:首先,知识库的组织结构固定,不易扩展。如WordNet通过定义若干同义词集合和若干语义关系来组织词语和表达词语之间的语义关系,研究人员在知识库的建设过程中经常会不断调整同义词集合的个数和语义范围;其次,知识库的语义知识表达不充分,如WordNet主要组织了具有相同或相近语义的词汇,是一个强大的同义词词典,而FrameNet则主要描述的是有限动词的框架语义。另外,现有语义知识库的构建方式都是纯手工构建,非常耗时耗力,如WordNet的开发工作从1985年开始,先后接受了超过300万美元的资助。语义知识库存在的这些不足成为制约语义信息处理技术进一步发展的关键因素。
针对现有语义知识库组织和构建中存在的以上问题,亟需一种灵活地、快速地、低成本的、知识表达充分的语义知识库构建方法。
发明内容
有鉴于此,本发明的主要目的之一在于解决现有语义知识库构建周期长、成本高、语义知识表达不够充分的问题,通过充分挖掘并表征词典中描述的语义知识,充分利用词典的规范释义模式来实现知识获取方法,使用户能灵活、快捷地从词典中构建包含丰富语义的知识库。
为了实现所述的目的,作为本发明的一个方面,本发明提出了一种基于词典的语义知识库的构建方法,包括如下步骤:
步骤S1:构建知识数据库,所述知识数据库包括四个数据表:义项表、义项属性知识表、义项关系知识表和义项搭配知识表;其中,所述义项表包括三个字段:领域名称、带检索词、义项;所述义项属性知识表包括三个字段:义项、属性名称和属性值;所述义项关系知识表包括三个字段:义项、关系名称和关系值;所述义项搭配知识表包括三个字段:义项、搭配名称和搭配值;
步骤S2:根据语义知识提取规则提取义项释义的语义知识;
步骤S3:对所述提取的语义知识进行义项映射;
步骤S4:提取所述义项剩余释义的语义知识。
其中,步骤S2中所述提取义项释义的语义知识的步骤是通过依次分析由主释义、补充释义和例句的语义特征组成的词典义项释义,构建知识提取规则实现的。
其中,步骤S2中所述提取义项释义的语义知识的步骤包括:
步骤S201:判断输入的词典义项是否为并列释义结构,如果不是则直接对词典义项中的释义执行步骤S202;如果是则分离并列释义,得到若干个分释义,然后对每个分释义再执行步骤S202;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410783884.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于多形式处理的大数据分析系统
- 下一篇:推荐数据的投放分析方法及装置