[发明专利]一种中文命名实体识别方法及系统有效
申请号: | 201711137581.3 | 申请日: | 2017-11-16 |
公开(公告)号: | CN107943786B | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 吴远辉 | 申请(专利权)人: | 广州市万隆证券咨询顾问有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 郑泽萍;胡辉 |
地址: | 510600 广东省广州市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 命名 实体 识别 方法 系统 | ||
1.一种中文命名实体识别方法,其特征在于,包括以下步骤:
S1、对目标文本进行基于规则匹配的实体识别,获得第一命名实体集合;
S2、采用统计算法对目标文本进行实体识别,获得第二命名实体集合;
S3、对第一命名实体集合和第二命名实体集合进行清洗后,获得识别结果;
所述步骤S1,具体包括:
S11、将目标文本的内容按句子进行分隔;
S12、对分隔后的目标文本进行基于标点符号规则的内容抽取;
S13、对分隔后的目标文本进行基于句法模板规则的内容抽取;
S14、对分隔后的目标文本进行基于表格特征的内容抽取;
S15、将抽取获得的所有命名实体生成第一命名实体集合;
所述步骤S3,具体包括:
S31、根据预设的噪音词汇库,分别对第一命名实体集合和第二命名实体集合进行数据清洗,剔除噪音词汇;
S32、将清洗后的第一命名实体集合和第二命名实体集合求并集后,作为命名实体识别结果;
所述标点符号规则,根据人们的使用习惯创建;
所述句法模板规则,根据语言习惯创建。
2.根据权利要求1所述的一种中文命名实体识别方法,其特征在于,所述步骤
S2,具体包括:
S21、将目标文本进行分词处理;
S22、基于预设的词性数据库,对分词处理结果进行词性标注;
S23、基于隐马尔可夫模型统计学习方法,对词性标注结果进行统计分析后,将分析获得的命名实体生成第二命名实体集合。
3.一种中文命名实体识别系统,其特征在于,包括以下模块:
第一识别模块,用于对目标文本进行基于规则匹配的实体识别,获得第一命名实体集合;
第二识别模块,用于采用统计算法对目标文本进行实体识别,获得第二命名实体集合;
清洗模块,用于对第一命名实体集合和第二命名实体集合进行清洗后,获得识别结果;
所述第一识别模块,具体包括:
分隔单元,用于将目标文本的内容按句子进行分隔;
第一抽取单元,用于对分隔后的目标文本进行基于标点符号规则的内容抽取;
第二抽取单元,用于对分隔后的目标文本进行基于句法模板规则的内容抽取;
第三抽取单元,用于对分隔后的目标文本进行基于表格特征的内容抽取;
生成单元,用于将抽取获得的所有命名实体生成第一命名实体集合;
所述清洗模块,具体包括:
数据清洗单元,用于根据预设的噪音词汇库,分别对第一命名实体集合和第二命名实体集合进行数据清洗,剔除噪音词汇;
计算单元,用于将清洗后的第一命名实体集合和第二命名实体集合求并集后,作为命名实体识别结果。
4.根据权利要求3所述的一种中文命名实体识别系统,其特征在于,所述第二识别模块,具体包括:
分词处理单元,用于将目标文本进行分词处理;
词性标注单元,用于基于预设的词性数据库,对分词处理结果进行词性标注;
统计分析单元,用于基于隐马尔可夫模型统计学习方法,对词性标注结果进行统计分析后,将分析获得的命名实体生成第二命名实体集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州市万隆证券咨询顾问有限公司,未经广州市万隆证券咨询顾问有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711137581.3/1.html,转载请声明来源钻瓜专利网。