[发明专利]一种中文命名实体识别方法及系统有效

申请号：	201711137581.3	申请日：	2017-11-16
公开（公告）号：	CN107943786B	公开（公告）日：	2021-12-07
发明（设计）人：	吴远辉	申请（专利权）人：	广州市万隆证券咨询顾问有限公司
主分类号：	G06F40/284	分类号：	G06F40/284
代理公司：	广州嘉权专利商标事务所有限公司 44205	代理人：	郑泽萍;胡辉
地址：	510600 广东省广州市***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种中文命名实体识别方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种中文命名实体识别方法，其特征在于，包括以下步骤：

S1、对目标文本进行基于规则匹配的实体识别，获得第一命名实体集合；

S2、采用统计算法对目标文本进行实体识别，获得第二命名实体集合；

S3、对第一命名实体集合和第二命名实体集合进行清洗后，获得识别结果；

所述步骤S1，具体包括：

S11、将目标文本的内容按句子进行分隔；

S12、对分隔后的目标文本进行基于标点符号规则的内容抽取；

S13、对分隔后的目标文本进行基于句法模板规则的内容抽取；

S14、对分隔后的目标文本进行基于表格特征的内容抽取；

S15、将抽取获得的所有命名实体生成第一命名实体集合；

所述步骤S3，具体包括：

S31、根据预设的噪音词汇库，分别对第一命名实体集合和第二命名实体集合进行数据清洗，剔除噪音词汇；

S32、将清洗后的第一命名实体集合和第二命名实体集合求并集后，作为命名实体识别结果；

所述标点符号规则，根据人们的使用习惯创建；

所述句法模板规则，根据语言习惯创建。

2.根据权利要求1所述的一种中文命名实体识别方法，其特征在于，所述步骤

S2，具体包括：

S21、将目标文本进行分词处理；

S22、基于预设的词性数据库，对分词处理结果进行词性标注；

S23、基于隐马尔可夫模型统计学习方法，对词性标注结果进行统计分析后，将分析获得的命名实体生成第二命名实体集合。

3.一种中文命名实体识别系统，其特征在于，包括以下模块：

第一识别模块，用于对目标文本进行基于规则匹配的实体识别，获得第一命名实体集合；

第二识别模块，用于采用统计算法对目标文本进行实体识别，获得第二命名实体集合；

清洗模块，用于对第一命名实体集合和第二命名实体集合进行清洗后，获得识别结果；

所述第一识别模块，具体包括：

分隔单元，用于将目标文本的内容按句子进行分隔；

第一抽取单元，用于对分隔后的目标文本进行基于标点符号规则的内容抽取；

第二抽取单元，用于对分隔后的目标文本进行基于句法模板规则的内容抽取；

第三抽取单元，用于对分隔后的目标文本进行基于表格特征的内容抽取；

生成单元，用于将抽取获得的所有命名实体生成第一命名实体集合；

所述清洗模块，具体包括：

数据清洗单元，用于根据预设的噪音词汇库，分别对第一命名实体集合和第二命名实体集合进行数据清洗，剔除噪音词汇；

计算单元，用于将清洗后的第一命名实体集合和第二命名实体集合求并集后，作为命名实体识别结果。

4.根据权利要求3所述的一种中文命名实体识别系统，其特征在于，所述第二识别模块，具体包括：

分词处理单元，用于将目标文本进行分词处理；

词性标注单元，用于基于预设的词性数据库，对分词处理结果进行词性标注；

统计分析单元，用于基于隐马尔可夫模型统计学习方法，对词性标注结果进行统计分析后，将分析获得的命名实体生成第二命名实体集合。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广州市万隆证券咨询顾问有限公司，未经广州市万隆证券咨询顾问有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201711137581.3/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于大数据的PDF文档处理方法及装置
下一篇：收集用户反馈的方法、装置、设备及计算机可读介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种中文命名实体识别方法及系统有效

专利文献下载