[发明专利]一种基于词典的语义知识库的构建方法在审
申请号: | 201410783884.2 | 申请日: | 2014-12-16 |
公开(公告)号: | CN104484411A | 公开(公告)日: | 2015-04-01 |
发明(设计)人: | 倪晚成;赵美静;张海东;林子琦;杨一平 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 宋焰琴 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 词典 语义 知识库 构建 方法 | ||
1.一种基于词典的语义知识库的构建方法,包括如下步骤:
步骤S1:构建知识数据库,所述知识数据库包括四个数据表:义项表、义项属性知识表、义项关系知识表和义项搭配知识表;其中,所述义项表包括三个字段:领域名称、带检索词、义项;所述义项属性知识表包括三个字段:义项、属性名称和属性值;所述义项关系知识表包括三个字段:义项、关系名称和关系值;所述义项搭配知识表包括三个字段:义项、搭配名称和搭配值;
步骤S2:根据语义知识提取规则提取义项释义的语义知识;
步骤S3:对所述提取的语义知识进行义项映射;
步骤S4:提取所述义项剩余释义的语义知识。
2.如权利要求1所述基于词典的语义知识库的构建方法,其特征在于,步骤S2中所述提取义项释义的语义知识的步骤是通过依次分析由主释义、补充释义和例句的语义特征组成的词典义项释义,构建知识提取规则实现的。
3.如权利要求2所述的基于词典的语义知识库的构建方法,其特征在于,步骤S2中所述提取义项释义的语义知识的步骤包括:
步骤S201:判断输入的词典义项是否为并列释义结构,如果不是则直接对词典义项中的释义执行步骤S202;如果是则分离并列释义,得到若干个分释义,然后对每个分释义再执行步骤S202;
步骤S202:判断输入的释义是否含有例句,如果没有则直接执行步骤S203;如果有则分离释义和例句,对分离后的释义执行步骤S203,对分离后的例句执行步骤S206;
步骤S203:判断输入的释义是否含有补充释义,如果没有则直接执行步骤S204;如果有则分离补充释义和主释义,对分离后的主释义执行步骤S204,对分离后的补充释义执行步骤S205;
步骤S204:根据主释义语义知识提取规则从输入的主释义中提取出相应的语义知识;
步骤S205:根据补充释义语义知识提取规则从输入的补充释义中提取出相应的语义知识;
步骤S206:对输入的例句进行分词,去停用词处理,得到的词语集作为例句词语搭配知识;
步骤S207:对用户输入的义项释义,删除由步骤S204、步骤S205和步骤S206处理过程中涉及到的部分释义,得到剩余释义;剩余释义连同步骤S204、步骤S205和步骤S206提取到的知识一齐输出。
4.如权利要求3所述的基于词典的语义知识库的构建方法,其特征在于,步骤S204中所述的主释义语义知识提取规则共包含12条产生式规则:
R204-1:IF主释义中含有“旧指”、“旧时指”字样THEN提取时代属性“旧称”;
R204-2:IF主释义中含有“比喻”字样AND“比喻”在主释义的开头或者“比喻”前面是标点符号THEN提取修辞属性“比喻”;
R204-3:IF主释义含有“<方>”字样THEN提取语言属性“方言”;
R204-4:IF主释义含有“<书>”字样THEN提取语言属性“书面语”;
R204-5:IF主释义含有“<口>”字样THEN提取语言属性“口语”;
R204-6:IF主释义含有“上指”或“中指”字样AND“上指”或“中指”前面是词语或并列词语THEN这些作为领域属性知识;
R204-7:IF主释义含有“同”字样AND“同”后面是用双引号引起来的词语THEN提取双引号引起来的词语作为同义关系知识;
R204-8:IF主释义含有“也叫”字样AND“也叫”后面接有词语THEN提取释义中“也叫”后面的词语作为同义关系知识;
R204-9:IF主释义含有“的旧称”字样AND“的旧称”前面有词语THEN提取“的旧称”前面的词语作为同义关系知识;
R204-10:IF主释义含有“一种”或“的一种”字样AND“一种”或“的一种”前面有词语THEN提取“一种”后面或“的一种”前面的词语作为上位关系知识;
R204-11:IF主释义为“不”后加词语THEN提取“不”后面的词语作为反义关系知识;
R204-12:IF主释义为单个词语THEN提取此词语作为近义关系知识。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410783884.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于多形式处理的大数据分析系统
- 下一篇:推荐数据的投放分析方法及装置