[发明专利]一种中文命名实体识别方法及系统有效

申请号：	201711137581.3	申请日：	2017-11-16
公开（公告）号：	CN107943786B	公开（公告）日：	2021-12-07
发明（设计）人：	吴远辉	申请（专利权）人：	广州市万隆证券咨询顾问有限公司
主分类号：	G06F40/284	分类号：	G06F40/284
代理公司：	广州嘉权专利商标事务所有限公司 44205	代理人：	郑泽萍;胡辉
地址：	510600 广东省广州市***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种中文命名实体识别方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种中文命名实体识别方法及系统，该方法包括以下步骤：S1、对目标文本进行基于规则匹配的实体识别，获得第一命名实体集合；S2、采用统计算法对目标文本进行实体识别，获得第二命名实体集合；S3、对第一命名实体集合和第二命名实体集合进行清洗后，获得识别结果。本发明分别基于规则匹配和统计算法对目标文本进行实体识别后，将两者的识别结果进行清洗后，求取获得最后的中文实体识别结果，可以在保证中文实体识别准确率的同时，大大提高中文实体识别的查全率，而且通过本方法进行中文实体自动识别，识别速度快，可广泛应用于对文本的信息处理领域中。

技术领域

本发明涉及计算机应用和信息处理领域，特别是涉及一种中文命名实体识别方法及系统。

背景技术

命名实体是目标文本中基本的信息元素，是正确理解目标文本的基础。中文实体命名识别是信息抽取、句法分析、机器学习等应用领域的重要基础工具，在自然语言处理技术走向实用化的过程中占有重要地位。中文命名实体识别就是要判断一个字符串是否代表一个命名实体。在信息抽取研究中，中文命名实体识别是目前最有实用价值的一项技术。常用的方法是单纯基于隐马尔可夫、最大熵模型的识别方法。

目前，由于中文公司名称命名的用字规律不强，使用比较随意，经常以简称的形式出现，如“中国银行股份有限公司”经常以简称的形式出现，如“中国银行”或“中行”，这为公司名的识别、应用带来了困难。总的来说，对于中文公司简称这类中文命名实体进行识别，存在以下难点：1、在不同领域、场景下，命名简称的外延有差异。2、某些类型的实体名称变化频繁，并且没有严格的规律可以遵循。3、表达形式多样。4、数量巨大，不能枚举，难以全部收录在词典中。总的来说，在中文目标文本的处理中，由于中文分词效果大大影响中文命名实体的识别效果，进而影响目标文本分析和处理效果，导致查全率低且识别速度慢。

发明内容

为了解决上述的技术问题，本发明的目的是提供一种中文命名实体识别方法及系统。

本发明解决其技术问题所采用的技术方案是：

一种中文命名实体识别方法，包括以下步骤：

S1、对目标文本进行基于规则匹配的实体识别，获得第一命名实体集合；

S2、采用统计算法对目标文本进行实体识别，获得第二命名实体集合；

S3、对第一命名实体集合和第二命名实体集合进行清洗后，获得识别结果。

进一步，所述步骤S1，具体包括：

S11、将目标文本的内容按句子进行分隔；

S12、对分隔后的目标文本进行基于标点符号规则的内容抽取；

S13、对分隔后的目标文本进行基于句法模板规则的内容抽取；

S14、对分隔后的目标文本进行基于表格特征的内容抽取；