[发明专利]命名实体识别方法及系统有效
申请号: | 201810475383.6 | 申请日: | 2018-05-17 |
公开(公告)号: | CN108717410B | 公开(公告)日: | 2022-05-20 |
发明(设计)人: | 刘光敏;桂洪冠;纪达麒;陈运文 | 申请(专利权)人: | 达而观信息科技(上海)有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30 |
代理公司: | 北京知果之信知识产权代理有限公司 11541 | 代理人: | 唐海力;李志刚 |
地址: | 201203 上海市浦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 命名 实体 识别 方法 系统 | ||
本申请公开了一种命名实体的识别方法及装置。所述方法包括:输入待识别文本,得到第一字符序列;通过训练词向量,得到所述目标文字的第一特征模型;将所述第一字符序列中的每个字符按照所述第一特征模型进行标签标注,得到第一标签序列;根据所述第一标签序列,提取可识别的所述命名实体;采用通过训练词向量,得到所述目标文字的第一特征模型的方式,通过词向量对第一特征模型进行特征函数扩展,达到了提升系统泛化能力的目的,从而实现了提高识别效果的技术效果,进而解决了相关技术中过拟合带来的识别效果较差的问题。
技术领域
本申请涉及命名实体识别领域,具体而言,涉及一种基于词向量和条件随机场的命名实体识别方法及系统。
背景技术
命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等;相关技术中往往采用将常见的命名实体识别任务被转化为序列标注任务,具体的,在序列标注任务中,最经典的方法为使用线性链条件随机场。
发明人发现,相关技术中基于条件随机场的命名实体识别方法的一大缺点是容易过拟合,尤其是在训练集数据较少时,这里的过拟合主要是指模型在训练集上效果很好,但真实预测时效果比较差的情况,通常缓解过拟合的最好方法是增大训练数据,但是数据的获取往往并没有那么容易,所以仅有少量训练数据的情况还是很常见的,因此过拟合带来的问题一直影响着系统的效果。
针对相关技术中过拟合带来的识别效果较差的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种命名实体的识别方法,以解决相关技术中过拟合带来的识别效果较差的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种命名实体的识别方法。
根据本申请的命名实体的识别方法包括:输入待识别文本,得到第一字符序列,其中,所述第一字符序列为将所述目标文字进行拆分后得到的每个字符所组成的序列;通过训练词向量,得到所述目标文字的第一特征模型,其中,所述第一特征模型用于生成所述每个字符对应的特征数值;将所述第一字符序列中的每个字符按照所述第一特征模型进行标签标注,得到第一标签序列;根据所述第一标签序列,提取可识别的所述命名实体。
进一步的,所述通过训练词向量,得到所述目标文字的第一特征模型包括:通过预设训练数据和预设特征模板进行模型训练,得到第二特征模型;根据经过训练后的词向量对所述第二特征模型进行特征函数扩展,得到所述第一特征模型。
进一步的,所述通过训练词向量,得到所述目标文字的第一特征模型还包括:对所述预设训练数据进行数据格式预处理;将处理后的训练数据转化为字符序列格式和标签序列格式,并用于模型训练。
进一步的,所述将所述第一字符序列中的每个字符按照所述第一特征模型进行标签标注,得到第一标签序列包括:根据所述第一特征模型和每个所述标签,生成对应的第一特征函数和第一特征函数权重,其中,所述第一特征函数权重用于作为所述第一特征函数对应每个所述标签的权重。
进一步的,所述将所述第一字符序列中的每个字符按照所述第一特征模型进行标签标注,得到第一标签序列还包括:根据所述第一特征模型,得到第一标签转移概率,其中,所述第一标签转移概率为所述标签在与所述第一字符序列建立对应关系时,当前标签转移到下一个标签的概率;对每个所述第一字符序列对应的所述第一特征函数权重进行累加计算,结合所述第一标签转移概率,得到所述第一标签序列。
进一步的,所述通过训练词向量,得到所述目标文字的第一特征模型还包括:将所述第一字符序列中的每个字符转化为低维实数向量;通过添加通用语料对所述低维实数向量进行词向量训练,得到经过语义相似度扩展的词向量。
为了实现上述目的,根据本申请的另一方面,提供了一种命名实体的识别装置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于达而观信息科技(上海)有限公司,未经达而观信息科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810475383.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种序列标注方法及装置
- 下一篇:一种基于大数据的调查问卷设计辅助系统