[发明专利]一种中文命名实体识别歧义消解方法有效

申请号：	201110265457.1	申请日：	2011-09-08
公开（公告）号：	CN102314507A	公开（公告）日：	2012-01-11
发明（设计）人：	王理;潘守慧;邓卫国;王思远;于珊;施慧斌	申请（专利权）人：	北京航空航天大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	100191***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种中文命名实体识别歧义消解方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域：

本发明属于命名实体抽取领域，特别涉及一种中文命名实体识别歧义消解方法。

背景技术：

针对WEB海量的信息，如何快速有效地找到用户解决问题所需要的知识。随着互联网技术的不断发展，互联网已经成为重要的信息源。面对海量的WEB信息，人们仍然面临着知识匮乏的困境。

目前绝大多数网页是用HTML编写的，而HTML中的标签仅仅刻画了数据的表达方式，并没有刻画数据的语义信息，这使得计算机很难理解Web上的信息。面对着海量的信息，人们只能通过搜索引擎等工具执行基于关键字的查找，而搜索引擎以网页地址的超链接和网页内容摘要的形式返回各种查询结果。人们通过阅读大量的WEB文档来获取想要的信息，而其中一些网页地址链接根本就不是用户需要的。虽然信息检索技术的出现对解决WEB海量信息获取问题起到了很大的作用，但是仅仅对文本进行关键词检索已经不能满足人们很多的应用需求。因此作为信息检索的一个分支，信息抽取技术得到了学术界的重视。信息抽取的目的是通过自然语言处理等方法将人们可读的非结构化文本转变为机器可读的结构化文本，特别是从各种信息源中抽取到用户感兴趣的实体、事件以及实体之间的关系等。而从信息源中抽取出各种实体的技术称为命名实体识别技术，命名实体识别技术是信息抽取研究的重要内容之一。命名实体是信息的主要载体，所以命名实体识别技术的好坏对信息抽取结果有着重要的影响。从广义上理解，命名实体可以是某个特定领域中的专有知识，电影名称，书名，人名，地名，组织机构名称等专有名词，可以概括为用户想要获取的各种关键信息；从狭义上理解命名实体是指人名，地名，组织机构名称等专有名称。

命名实体的识别方法主要包括两大类：基于规则的方法和基于统计的方法。基于规则的方法是命名实体识别中最早使用的技术，命名实体识别依赖于知识库和词库。知识库是通过人工而建立的抽取规则库，而词库通常包括常用姓氏、常用组织机构名称的后缀，常用地名的后缀等。采用这种方法的系统比较多，一般都是针对不同类型的命名实体识别使用不同的规则，但是随着时间的发展，新的实体名称大量涌现，需要人工不断添加规则库。此外，有些规则本身就是有一定的局限的，对于那些比较生僻的地名和人名还是无法进行正确识别的。相对基于规则的抽取技术，基于统计的方法利用完全或部分标注的语料进行训练，语料的标注可以通过半自动的方法完成。因此较小规模的训练可以在短时间以及接受人力代价的情况完成。同时，基于统计方法事先的系统只经过较少的改动就可以移植到新的领域中去，只需要利用新领域的语料重新训练即可。目前广泛应用于命名实体识别的统计方法主要有：隐马尔科夫模型(HMM)，条件概率模型，最大熵模型(MEMM)，条件随机场模型(CRF)等。基于规则的方法需要人工参与，并且具有领域性，难于移植；而基于统计的方法适应性较好，只要少量的人工参与，但是需要大量的训练数据时，需要花费大量的时间和存储空间。所以比较理想的解决方法是结合两种方法的优点，用于命名实体识别，这种方法是基于混合的命名实体识别方法，目前也得到了广泛的应用。

发明内容

本发明提供了一种中文命名实体识别歧义消解方法。本发明采用的技术方案包括以下步骤。

(1)通过特征归纳的CRF算法选取有意义的特征来减少特征个数。

(2)采用修正的Viterbi算法来从基于特征归纳的CRF算法学习结果中选择N-BEST最佳标记序列，也就是选出观测序列x的N个概率最大的标记序列。

(3)通过对这N个标记序列的比对，找出其中标记不一致的部分，并认为这部分之所以出现歧义切分是因为对实体边界及其类型界定的不同，导致标记结果出现不一致，转步骤4。如果一致，则不用进行歧义消解，直接得到最终的标记序列。

(4)从N个最佳候选序列中找出不一致部分并找出其对应的观测子序列x_s，采用基于改进的贪婪算法进行歧义消解。得到最终的标记序列。

对于步骤1，其实现过程为：

(1)考虑一组最新提供的特征，包括原子特征和组合特征。

(2)只选择那些将会大大提高似然概率的候选特征，提高似然概率值不低于设定的阈值(threshold)。

(3)训练特征的权重。

(4)重复执行步骤(1)-(3)直到选完所有的特征。

步骤(2)在进行Viterbi算法选择最佳标记序列之前，考虑了新加入特征的效果，从而定义新的概率模型，新的模型中加入了新的特征函数g和新的权重μ，这样概率模型就变为：