[发明专利]实体名的识别方法和装置有效
申请号: | 201410234622.0 | 申请日: | 2014-05-29 |
公开(公告)号: | CN103995885B | 公开(公告)日: | 2017-11-17 |
发明(设计)人: | 陈丽欧;徐明泉;韩锋;姜世超;周寰;王平;雷绍泽;周丰乐 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙)11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 识别 方法 装置 | ||
技术领域
本发明涉及互联网信息处理技术领域,特别涉及一种实体名的识别方法和装置。
背景技术
随着计算机的广泛使用和互联网的快速发展,互联网资源逐渐丰富,信息量急剧增大。为了使用户能够在海量的信息源中迅速找到真正需要的信息,需要对信息文档进行处理,以自动识别其中的实体名,以便于用户根据实体名查找需要的信息。目前,对实体名的自动识别是一项技术难题。实体名的类型不同,其识别难度和识别方法也各不相同。实体名的识别主要有统计学习的方法和基于规则的识别方法两种方式。其中:
统计学习的方法包括训练阶段和识别阶段,在训练阶段,在标注语料的基础上,通过抽取相关特征并选择合适的机器学习策略来训练专名识别的模型;在识别阶段,使用训练阶段得到的模型来自动识别新语料中的专名。但是,在训练阶段,需要人工标注、校对训练语料,非常耗时耗力,并且实体名不断变化,不时会有一些新的实体名出现,因此训练语料也需要经常更新,这十分耗费人力资源,费时费力,且准确率不高。
基于规则的识别方法的思想是将人类用于识别实体名的语言学知识编写成若干条规则,让机器按照这些规则对文本中的实体名进行自动识别。这些规则一般都依赖于具体语言类型,如汉语、英语等。但是用于识别实体名的这些规则过于繁琐复杂,且知识编码的工作目前也没有统一的指导性方法,因此,基于规则的方法,需要针对不同的语言分别编写识别规则,工作量大,且通用性较差。
因此,目前,实体名的识别方法普遍应用性较差,且准备工作量大,难以同时实现高准确率且低人力资源耗费。
发明内容
本发明旨在至少在一定程度上解决上述技术问题。
为此,本发明的第一个目的在于提出一种实体名的识别方法,该方法能够提升实体名识别的准确率以及通用性。
本发明的第二个目的在于提出一种实体名的识别装置。
为达上述目的,根据本发明第一方面实施例提出了一种实体名的识别方法,包括:获取待识别文本以及所述待识别文本的来源信息;根据所述待识别文本的来源信息和识别模型获取所述待识别文本中的第一实体名;根据预先建立的词根表和预设约束规则从所述待识别文本中非第一实体名的内容中获取第二实体名。
本发明实施例的实体名的识别方法,根据待识别文本的来源信息和识别模型获取待识别文本中的第一实体名,并根据词根表和预设规则获取待识别文本中的第二实体名,充分结合了统计学习方法和基于规则的识别方法二者的优势,提升了实体名识别的准确率和召回率,可适用于各种语言类型,通用性较强。此外,对于创意文本中的实体名的有效识别,极大的满足创意中个性化需求,且满足了法务风险词汇的识别需求。
本发明第二方面实施例提供了一种实体名的识别装置,包括:获取模块,用于获取待识别文本以及所述待识别文本的来源信息;第一识别模块,用于根据所述待识别文本的来源信息和识别模型获取所述待识别文本中的第一实体名;第二识别模块,用于根据预先建立的词根表和预设约束规则从所述待识别文本中非第一实体名的内容中获取第二实体名。
本发明实施例的实体名的识别装置,根据待识别文本的来源信息和识别模型获取待识别文本中的第一实体名,并根据词根表和预设规则获取待识别文本中的第二实体名,充分结合了统计学习方法和基于规则的识别方法二者的优势,提升了实体名识别的准确率和召回率,可适用于各种语言类型,通用性较强。此外,对于创意文本中的实体名的有效识别,极大的满足创意中个性化需求,且满足了法务风险词汇的识别需求。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的实体名的识别方法的流程图;
图2为根据本发明一个实施例的根据待识别文本的来源信息和识别模型获取待识别文本中的第一实体名的方法的流程图;
图3为根据本发明一个实施例的根据预先建立的词根表和预设约束规则从待识别文本中非第一实体名的内容中获取第二实体名的流程图;
图4为根据本发明一个实施例的建立词根表和词缀表的方法的流程图;
图5为根据本发明一个实施例的建立词根识别模型的方法的流程图;
图6为根据本发明一个实施例的建立实体识别模型的方法的流程图;
图7为根据本发明一个实施例的实体名的识别装置的结构示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410234622.0/2.html,转载请声明来源钻瓜专利网。