[发明专利]一种动态融合词典信息的中文命名实体识别方法和装置在审
申请号: | 202111260751.3 | 申请日: | 2021-10-28 |
公开(公告)号: | CN113988074A | 公开(公告)日: | 2022-01-28 |
发明(设计)人: | 王立松;孙明杰;刘绍翰;黄玉划 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/242 |
代理公司: | 南京钟山专利代理有限公司 32252 | 代理人: | 徐燕 |
地址: | 211016 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 动态 融合 词典 信息 中文 命名 实体 识别 方法 装置 | ||
本发明公开了一种动态融合词典信息的中文命名实体识别方法,包括:接收待识别句子,为句子中的每个字从词典中匹配相关的词汇;利用self‑attention作为字词信息融合器来动态的学习字与对应的词之间的相关性权重,以融合字词信息;采用改进的Transformer层,在建模上下文的语义信息的同时,通过优化初始位置编码的方式融入位置信息;将学习得到的上下文表示输入到条件随机场进行预测。本发明提出了一种在中文命名实体识别上效果好,推理速度快,具备灵活迁移融合字典信息结构的神经网络方法。
技术领域
本发明涉及深度学习自然语言处理技术领域,具体而言涉及一种动态融合词典信息的中文命名实体识别方法和装置。
背景技术
命名实体识别是自然语言处理任务的基础性工作,对下游任务的关系抽取,信息检索,知识问答,机器翻译起到了重要作用。实体识别主要包括实体边界的准确识别和实体类别的正确分类。中文命名实体识别比英文命名实体识别更加困难。大的方面来讲,实体识别主要包括基于字粒度,词粒度,字词混合的三种特征方法。前人的研究发现,由于中文分词在词典中经常出现未登录词的情况,以及可能会出现错误的分词边界。命名实体识别中,实体的边界一般都是分词的边界,以上两点情况会对命名实体识别效果产生严重负面影响。所以基于字符粒度的方法要比基于分词的方法效果更佳。由于词的信息也是至关重要的,所以出现了以字符粒度为主,并向其中融合潜在的词信息的字词混合方法。
对于不同垂直领域的命名实体而言,几乎都不会存在完美的分词算法模型,这就会对之后的命名实体识别产生负面的效果。为了能够充分利用分词信息并解决提到的分词错误问题,研究者提出了一种利用词典融合单词信息的方法。很经典的一个算法模型Lattice LSTM,通过对LSTM内部编码结构的精巧改进设计,使其能够在对句子进行编码的时候,把句子中在词典中隐藏的单词信息巧妙地融合入字中。这样融合字-词信息的方法极大丰富了编码的内容,最终在命名实体识别的多个数据集上取得了最好的模型的性能。
但是提出的这种通过精巧设计而融合词汇信息的Lattice LSTM结构很复杂,只能适应LSTM这种编码器,迁移性能很差。且LSTM对句子的处理不能并行化。
最近,通过对CNN神经网络结构的设计来融合词汇信息的方法在中文命名实体识别上取得了很好的效果。利用CNN来并行的处理句子中的字和句子中潜在的单词信息;在高层的语义信息上加上了反馈层来解决句子中单词冲突问题。这种方法很有效的加快了模型的训练速度,并且在中文命名实体识别多个数据集上取得了最好的性能。但是这种词汇融合方法也不具备很好的迁移性。
Transformer编码器的提出,在众多的自然语言处理任务中广泛应用,比如机器翻译领域,与预训练模型的结合BERT,更是在众多领域取得了最佳的成绩。不同于传统的RNN网络结构,Transformer能够充分利用GPU的并行处理能力,并能够很好的对长距离的上下文信息建模。但是原生的Transformer由于缺乏对位置信息很好的捕捉能力,使得它在命名实体识别任务上表现得很差,甚至效果还不如LSTM。
发明内容
本发明针对现有技术中的不足,提供一种动态融合词典信息的中文命名实体识别方法和装置,在中文命名实体识别上利用self-attention来作为字词信息融合器来发挥出词典在中文命名实体识别上的重要作用;利用优化改进的Transformer来作为上下文编码器来建模上下文语义和位置信息,充分利用了Transformer强大的并行能力。
为实现上述目的,本发明采用以下技术方案:
一种动态融合词典信息的中文命名实体识别方法,所述识别方法包括以下步骤:
S1,接收待识别句子,为句子中的每个字从词典中匹配相关的词汇;
S2,利用self-attention作为字词信息融合器来动态的学习字与对应的词之间的相关性权重,以融合字词信息;融合过程包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111260751.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型透明OLED器件
- 下一篇:一种智能物联网开关及控制方法
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置