[发明专利]一种中文命名实体识别方法及系统有效
申请号: | 201711137581.3 | 申请日: | 2017-11-16 |
公开(公告)号: | CN107943786B | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 吴远辉 | 申请(专利权)人: | 广州市万隆证券咨询顾问有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 郑泽萍;胡辉 |
地址: | 510600 广东省广州市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 命名 实体 识别 方法 系统 | ||
本发明公开了一种中文命名实体识别方法及系统,该方法包括以下步骤:S1、对目标文本进行基于规则匹配的实体识别,获得第一命名实体集合;S2、采用统计算法对目标文本进行实体识别,获得第二命名实体集合;S3、对第一命名实体集合和第二命名实体集合进行清洗后,获得识别结果。本发明分别基于规则匹配和统计算法对目标文本进行实体识别后,将两者的识别结果进行清洗后,求取获得最后的中文实体识别结果,可以在保证中文实体识别准确率的同时,大大提高中文实体识别的查全率,而且通过本方法进行中文实体自动识别,识别速度快,可广泛应用于对文本的信息处理领域中。
技术领域
本发明涉及计算机应用和信息处理领域,特别是涉及一种中文命名实体识别方法及系统。
背景技术
命名实体是目标文本中基本的信息元素,是正确理解目标文本的基础。中文实体命名识别是信息抽取、句法分析、机器学习等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。中文命名实体识别就是要判断一个字符串是否代表一个命名实体。在信息抽取研究中,中文命名实体识别是目前最有实用价值的一项技术。常用的方法是单纯基于隐马尔可夫、最大熵模型的识别方法。
目前,由于中文公司名称命名的用字规律不强,使用比较随意,经常以简称的形式出现,如“中国银行股份有限公司”经常以简称的形式出现,如“中国银行”或“中行”,这为公司名的识别、应用带来了困难。总的来说,对于中文公司简称这类中文命名实体进行识别,存在以下难点:1、在不同领域、场景下,命名简称的外延有差异。2、某些类型的实体名称变化频繁,并且没有严格的规律可以遵循。3、表达形式多样。4、数量巨大,不能枚举,难以全部收录在词典中。总的来说,在中文目标文本的处理中,由于中文分词效果大大影响中文命名实体的识别效果,进而影响目标文本分析和处理效果,导致查全率低且识别速度慢。
发明内容
为了解决上述的技术问题,本发明的目的是提供一种中文命名实体识别方法及系统。
本发明解决其技术问题所采用的技术方案是:
一种中文命名实体识别方法,包括以下步骤:
S1、对目标文本进行基于规则匹配的实体识别,获得第一命名实体集合;
S2、采用统计算法对目标文本进行实体识别,获得第二命名实体集合;
S3、对第一命名实体集合和第二命名实体集合进行清洗后,获得识别结果。
进一步,所述步骤S1,具体包括:
S11、将目标文本的内容按句子进行分隔;
S12、对分隔后的目标文本进行基于标点符号规则的内容抽取;
S13、对分隔后的目标文本进行基于句法模板规则的内容抽取;
S14、对分隔后的目标文本进行基于表格特征的内容抽取;
S15、将抽取获得的所有命名实体生成第一命名实体集合。
进一步,所述步骤S2,具体包括:
S21、将目标文本进行分词处理;
S22、基于预设的词性数据库,对分词处理结果进行词性标注;
S23、基于隐马尔可夫模型统计学习方法,对词性标注结果进行统计分析后,将分析获得的命名实体生成第二命名实体集合。
进一步,所述步骤S3,具体包括:
S31、根据预设的噪音词汇库,分别对第一命名实体集合和第二命名实体集合进行数据清洗,剔除噪音词汇;
S32、将清洗后的第一命名实体集合和第二命名实体集合求并集后,作为命名实体识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州市万隆证券咨询顾问有限公司,未经广州市万隆证券咨询顾问有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711137581.3/2.html,转载请声明来源钻瓜专利网。