[发明专利]基于开放知识库的短文本语义概念自动化扩展方法及系统有效
申请号: | 201310081984.6 | 申请日: | 2013-03-14 |
公开(公告)号: | CN103150382A | 公开(公告)日: | 2013-06-12 |
发明(设计)人: | 程学旗;刘盛华;肖永磊;王元卓;刘悦 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 开放 知识库 文本 语义 概念 自动化 扩展 方法 系统 | ||
1.一种基于开放知识库的短文本语义概念自动化扩展方法,所述方法包括:
步骤1)对短文本生成n-gram集合;
步骤2)对于所述n-gram集合中的元素执行下列操作:
将该元素链接到开放知识库中与该元素最相关的概念,以及
基于开放知识库的概念关系矩阵和所链接的概念,为该元素生成扩展的语义概念集合,
其中,所述开放知识库的概念关系矩阵的行为该开放知识库中的概念,列为该开放知识库中的文档,所述概念关系矩阵中元素的值为所在行的概念在所在列的文档中出现的总的次数。
2.根据权利要求1所述的方法,所述步骤1)包括:
利用短文本中包含的特殊符号和停用词作为分隔符,生成不包含特殊符号和停用词的短文本片段;
对每一个短文本片段分别产生n-gram;
合并每条短文本片段的n-gram,得到该条短文本的n-gram集合。
3.根据权利要求1所述的方法,所述开放知识库为维基百科,所述该开放知识库中的概念为维基百科中的锚文本。
4.根据权利要求1所述的方法,所述步骤2)中,所述n-gram集合中的元素为可链接的元素。
5.根据权利要求4所述的方法,所述步骤2)还包括从步骤1)所生成的n-gram集合中选择可链接的元素的步骤。
6.根据权利要求1-5之一所述的方法,在所述步骤2中)将该元素链接到开放知识库中与该元素最相关的概念包括:
将开放知识库中与该元素对应的所有概念作为该元素的候选概念集合;
计算该候选概念集合中每个概念与该元素之间的互信息;
选择与该元素之间的互信息最大的概念作为与该元素最相关的概念,从而将该元素链接到开放知识库中与该元素最相关的概念。
7.根据权利要求1-5之一所述的方法,在所述步骤2中)将该元素链接到开放知识库中与该元素最相关的概念包括:
将开放知识库中与该元素对应的所有概念作为该元素的候选概念集合;
计算该候选概念集合中每个概念与该元素的上下文之间的相关性;
选择与该元素的上下文之间的相关性最大的概念作为与该元素最相关的概念,从而将该元素链接到开放知识库中与该元素最相关的概念;
其中,该候选概念集合中每个概念ci与该元素的上下文之间的相关性以如下公式进行计算:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310081984.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种线路压变谐波抑制装置
- 下一篇:一种母线残压保持装置