[发明专利]一种基于Attention机制的命名实体识别方法在审
申请号: | 201910371706.1 | 申请日: | 2019-05-06 |
公开(公告)号: | CN110134954A | 公开(公告)日: | 2019-08-16 |
发明(设计)人: | 王丹;徐书世;赵青;杜金莲;付利华 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 命名实体 特征构建 字符特征提取 词语相似度 分类器模块 计算机领域 上下文信息 词语提取 权重信息 实体标签 特征融合 特征提取 字符位置 中文字 准确率 融合 引入 预测 机场 | ||
一种基于Attention机制的命名实体识别方法属于计算机领域,通过Attention机制引入中文字素和字符位置权重信息来提高命名实体识别的准确率。方法包括:相似词语提取模块、特征构建模块和分类器模块,其中特征构建模块包括词语相似度融合、词特征提取、字符特征提取和特征融合四个子模块。本方法通过双向LSTM(长短期记忆)来处理命名实体识别中的上下文信息,通过crf(条件随机场)来预测实体标签类别。
技术领域
本发明涉及一种基于Attention机制的命名实体识别方法,属于计算机软件领域。
背景技术
知识对于人工智能的价值在于可以让机器具备认知能力和理解能力,构建知识图谱的过程就是让机器形成认知能力的过程,从而让机器理解这个世界。知识图谱是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化的描述。
在医疗方向,医学知识图谱是实现智慧医疗的基石,构建医学知识图谱的前提是知识的提取,而其中从病例文本获取知识是重要的一个来源。但是人工提取的话将是一个十分繁重的任务。命名实体识别提供了一种替代人力的方法。
“命名实体”这个概念是在1996年第六届信息理解会议(MUC-6)上提出的,命名实体识别是指识别文本中具有特定意义的实体,像人名、地名、机构名称等等专有名词,而在识别病例文本时,我们需要识别的实体包括病人自诉症状、检查手段、检查结果、疾病名称、治疗手段等。命名实体识别不止对构建图谱有重要意义,而且是信息提取、问答系统、机器翻译等应用领域的重要基础工具。
命名实体识别的发展历史可以简单描述为:从基于规则的方法到基于统计的方法到基于深度学习与统计相结合。
基于规则的方法是命名实体识别最早使用的方法,这种方法依赖于语言学家手工构建的规则模板,选用的特征一般包括统计信息、关键字、标点符号、指示词、方向词、位置词、中心词等,在匹配时以模式和字符串匹配为主。采用规则的代表系统有GATRE项目中的ANNIE系统和参加MUC评测的FACILE系统等。通常而言,如果提取的规则能精确地反映语言现象的话,那么这种方法能取得优于统计方法的结果,但是现实中往往很难得到满足需要的规则,并且规则制定依赖大量人力且耗时很长。而且这种方法依赖于具体语言,无法做到复用。由于以上种种弊端,现在很少使用基于规则的方法。
基于统计的方法利用人工标注的语料进行训练,标注语料不需要语言专家帮助,并且耗时相对较少。而且移植性要优于基于规则的方法,只需要利用新的语料库进行训练即可。Bikel等最早提出了基于隐马尔可夫模型的英文命名实体识别方法,在MUC-6测试文本集对英文地名、机构名和人名的提取获得了优秀的结果。McCallum等2003年最早将条件随机场用于命名实体识别,由于简便易行且性能很好,因此很受欢迎。除此之外,基于统计机器学习的方法还包括隐马尔可夫模型、最大熵模型、支持向量机等方法。
随着机器学习的发展,基于机器学习的方法成为了越来越重要的部分。有人使用双向长短期网络BiLSTM进行文本的实体识别和分类,BiLSTM由两个LSTM组成,一个正向,一个反向。所谓反向即将原始序列(一系列词语)反向输入。将同一个序列经过两个LSTM处理后得到的结果结合在一起,可以有效地利用该序列的上下文信息。
有人将机器学习和统计学习结合在一起提出了基于双向长短期网络和条件随机场的BiLSTM-CRF模型,最后将结果输入到CRF层进行处理。该方法取得了不错的效果并流行起来。
Lample等在原BiLSTM-CRF的基础上,又通过另一个BiLSTM学习词中字符的信息,然后将前者学到的词信息和后者得到的字符信息拼接起来作为最终CRF层的输入并获得了更好的结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910371706.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于中医古籍文献的中医命名实体识别方法及识别系统
- 下一篇:一种语义处理方法