[发明专利]一种多特征融合识别中文机构名的控制方法在审
申请号: | 201210348109.5 | 申请日: | 2012-09-18 |
公开(公告)号: | CN102955842A | 公开(公告)日: | 2013-03-06 |
发明(设计)人: | 凌雅娟;杨静 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 隆天国际知识产权代理有限公司 72003 | 代理人: | 张龙哺;冯志云 |
地址: | 200241 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 特征 融合 识别 中文 机构 控制 方法 | ||
技术领域
本发明涉及命名实体识别、关系挖掘、文档摘要、句法分析、机器翻译、信息抽取等技术领域,具体说是对中文文档中机构名进行识别标注的系统。
背景技术
随着计算机的广泛使用和互联网的快速发展,大量的信息以电子文档的形式呈现在人们面前。人们迫切需要一些自动化的工具帮助他们在海量的信息源中迅速找到真正需要的信息,因此,对信息文档的处理应运而生。由于中文文档不同于英文文档,词之间没有空格分隔,并且对于专有词如公司名、人名,地名等没有大小写之分,这更大程度上加大的了对中文文档处理的难度,所以对中文文档进行分词、实体识别迫切需要。
目前,对人名和地名的识别已经作了非常广泛细致的研究,提出来各种各样的处理方法,已能够较好的满足人们的使用需求。但对于中文机构名,由于对其研究较少,并且其涵盖范围大、用词广泛、长度不定、惯用简称等特点,导致对其识别的效果并不理想。现在,基于角色标注的中文机构名识别方法能较好的实现机构名识别,但是构建一个完整的角色库难度非常大,而且该种方法对复杂机构名的识别并不理想。基于统计的中文机构名识别方法,由于统计方法比较复杂,导致识别方法的实现极为困难。而本文所提出的方法并不需要构建完整的规则模式,只需构建机构名的特征尾词库和机构名的左边界特征,构建方法简单快速,并且识别效果理想。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种在自然语言处理系统中多特征融合识别中文机构名的控制方法,其特征在于,包括如下步骤:a.根据中文机构名右边界特征词库以及中文机构名左边界规则识别待语句中待识别机构名的左右边界,生成候选中文机构名;b.确定所述候选中文机构名的构成模式,对所述候选中文机构名进行筛选;以及c.与中文机构名上下文语义环境特征词进行比较,验证所述候选中文机构名以确定中文机构名。
根据本发明的一个方面,提供一种多特征融合的中文机构名识别系统,包括机构名识别和评估两个部分。所述机构名识别根据预先定义的右边界特征词库和左边界规则确定待识别机构名的左右边界,从而达到识别机构名的目的;所述机构名评估先是对得到的识别结果,经过分词获取其构成模式特征,然后与已知机构名的构成模式进行相似度匹配,再对其的上下文语义环境进行判断,确定其左右边界的准确性。
优选地,所述系统包括如下面特征:机构名右边界特征,机构名的尾词,用于确定机构名的右边界。左边界规则,中文机构名的左边界规则是指能够将机构名与机构名的前缀相区分的语法单元,本方法中将其用于确定机构名左边界。机构名构成模式特征,对已有机构名的构成模式进行分析总结而得。主要用于筛选识别得到的机构名是否符合构成模式特征,删除不符合的识别结果。机构名上下语义环境特征,主要用于判断识别得到的机构名的左右边界是否正确,对边界识别错误的机构名的左右边界根据上下文特征进行重新确定。
优选地,对机构名构成模式的匹配,采用相似度匹配方式。
优选地,先是运用机构名的右边界特征和左边界规则,识别机构名,然后再运用机构名构成模式特征和上下文语义环境特征进行评估优化。
优选地,机构名的构成模式特征用于筛除错误的识别结果,上下文语义环境特征用于对识别错误的机构名进行优化。
根据本发明的又一个方面,提供一种对中文机构名进行识别的方法,该方法是在一个已经经过中科院分词软件ICTCLAS分词词性标注处理的文档上进行识别的系统。机构名右边界特征词库和上下文语义环境特征一旦构建完成,即可对输入端文档进行机构名的识别。
本发明的目的是这样实现的:
多特征融合的中文机构名识别方法,需要预先构建中文机构名右边界特征词库和上下文语义环境特征库,并总结分析获取左边界规则和中文机构名的构成模式特征。然后基于上述的中文机构名特征,对机构名进行识别,并对识别结果进行评估。具体步骤如下:
第一步:对人民日报1998年1月份标注语料库进行处理,构建机构名右边界特征词库和机构名上下文语义环境特征,总结机构名左边界规则和机构名构成模式特征。
第二步:依据机构名右边界特征词库,从左向右逐个确定输入文档中符合右边界要求的词位置。
第三步:根据第二步确定的词位置,从右向左进行寻找,判断符合左边界规则的词位置。若同时符合多个左边界规则,则根据左边界规则的权重大小,确定权重大的作为最终的左边界位置。
第四步:根据左边界位置和右边界词位置,得到机构名的识别结果。
第五步:对识别得到的结果进行分词处理,提取其构成模式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210348109.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:智能下线机
- 下一篇:用于燃油气化炉供油的油泵