[发明专利]基于协同自扩展的命名实体集合扩展方法及查询推荐方法有效
申请号: | 201410293658.6 | 申请日: | 2014-06-26 |
公开(公告)号: | CN105205075B | 公开(公告)日: | 2018-12-07 |
发明(设计)人: | 孙乐;石贝 | 申请(专利权)人: | 中国科学院软件研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 司立彬 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 协同 扩展 命名 实体 集合 方法 查询 推荐 | ||
本发明公开了一种基于协同自扩展的命名实体集合扩展方法及查询推荐方法。本方法为:1)根据输入的种子集合,对每一种子生成一模板并对该模板的质量进行评估;2)利用选取的模板进行实例抽取,并建立每一所选模板的模板‑实例关系;3)对于每一所选模板,根据所有所选模板的模板‑实例关系计算被该模板抽取的实例是正实例的概率,然后根据概率值选取若干正实例和具有区分能力的负实例加入到该种子集合中;4)持续迭代上述步骤1)~3),直至该种子集合中抽取的正实例的数目达到预设的阈值;其中得到的正实例集合作为扩展后的具有同一类别的命名实体集合,负实例为该命名实体集合的边界。本发明大大增强了种子的描述能力,提高了查询性能。
技术领域
本发明涉及一种命名实体集合扩展方法,特别是涉及一种基于协同自扩展的命名实体集合扩展方法及查询推荐方法,属于自然语言处理技术领域。
背景技术
随着Web2.0的高速发展,互联网上的信息越来越丰富,其中大部分内容是由海量用户依照个人习惯和兴趣发布的,比如私人博客、主题论坛、网络百科全书等。如何从这些海量信息中抽取出有效信息并进行组织和利用成为大数据时代的一个挑战。通过抽取固定类别下的命名实体列表,多源、异构的互联网信息得到了有效地抽取、组织和利用。命名实体集合扩展是实现上述目标的关键技术之一。
另一方面,命名实体是文本中承载信息的重要语言单位,抽取出的命名实体列表可以应用于知识库构建,查询推荐等。因此,抽取出文本中的命名实体对理解文本内容有重要意义。然而,现今的互联网信息具有多源、异构、海量等特点,这些特点对信息抽取技术提出了新的要求。在这种情况下,传统命名实体抽取仅仅依靠原有的基于规则和统计的抽取技术已经无法应对新的挑战。为此,如何利用命名实体集合扩展技术获取命名实体列表是自然语言处理技术实用化的重要因素之一。
综上,构建智能信息服务的核心之一是知识获取和自然语言理解,而能够识别实体并构建命名实体列表的命名实体集合扩展是提供自然语言理解基础知识的一项关键技术。
由于半监督学习只需要很少的训练语料就能获得较高的准确率,目前命名实体集合扩展的方法主要是采用基于自扩展的半监督学习方法。该方法主要有三个步骤:1)通过输入目标语义类别中的种子实体,抽取包围种子实体的模板。2)使用抽取的模板对整个文档集合进行实体抽取。3)对抽取出的候选实体进行筛选,将筛选出的实体输出,并加入种子实体集合。自扩展算法会持续对这三步进行迭代,直至输出实体的数目达到预定义的阈值。
但是通常的自扩展方法往往有下面两个问题:
1)初始种子描述能力不足。该问题是指仅仅使用正实例不能准确地定义被抽取的语义类别。比如针对已有的实体集合扩展系统,当用户输入种子{“北京”,“东京”,“伦敦”}时,系统并不知道目标实体的语义类别究竟是首都,还是普通城市,甚至是一般地点。因此,系统返回的结果可能会包含城市,也可能会包含其他任意的地点名称。这主要因为初始种子集合{“北京”,“东京”,“伦敦”}没有足够的描述能力来确定目标实体的语义类别。
2)语义漂移。该问题是指在使用自扩展算法进行迭代抽取的过程中,被抽取的目标实体的语义类别会发生语义漂移现象。这是因为在抽取过程中,被抽取出的候选实体会包含噪声。比如,在抽取IT Company这个类别时,“Apple”被抽取出加入到种子实体集合中。然而由于歧义,关于水果的模板在后续步骤中也会被抽取出来,从而抽取出其他具有水果语义的实体和模板。随着迭代过程的进行,这将造成被抽取的类别由IT Company向Fruit漂移,最终造成抽取性能大幅下降。
发明内容
针对命名实体集合扩展中存在的初始种子描述能力不足和语义漂移,本发明提供了一种基于协同自扩展的命名实体集合扩展方法,通过引入负实例来表示扩展边界,增强种子的描述能力,并自扩展的过程中自动产生能够持续扩展的正实例和负实例。本发明有效地维护了目标实体的语义边界,较好地解决了语义漂移问题。
本发明所采用的技术方案如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410293658.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种甜玉米人参奶茶及其制备方法
- 下一篇:一种电商网站的页面信息获取方法