[发明专利]法律领域文本分析识别方法、系统、存储介质及终端在审
申请号: | 202010692896.X | 申请日: | 2020-07-17 |
公开(公告)号: | CN113011185A | 公开(公告)日: | 2021-06-22 |
发明(设计)人: | 刘悦华;杨一帆 | 申请(专利权)人: | 上海浦东华宇信息技术有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06Q50/18 |
代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 徐秋平 |
地址: | 201203 上海市浦东新区中国*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 法律 领域 文本 分析 识别 方法 系统 存储 介质 终端 | ||
本发明提供一种法律领域文本分析识别方法系统、存储介质及终端,包括以下步骤:获取包含法律领域词汇的训练文本语料;对所述训练文本语料进行预处理;将预处理后的训练文本语料输入初始RoBERTa预训练模型进行训练,获取训练完成的用于法律领域文本分析识别的RoBERTa模型;基于训练完成的RoBERTa模型对待识别文本语料进行法律领域文本分析识别。本发明的法律领域文本分析识别方法、系统、存储介质及终端基于训练完成的RoBERTa模型实现法律领域文本的分析识别,准确率高,实用性强。
技术领域
本发明涉及词汇识别的技术领域,特别是涉及一种法律领域文本分析识别方法、系统、存储介质及终端。
背景技术
命名实体识别(Named Entity Recognition,NER)又被称作是“专名识别”,是自然语言处理(Natural Language Processing,NLP)中基础任务之一,其目的是从文档、文章等非结构化文本语料中获取所需的命名实体,预先设定好需要抽取的实体类别,比如人名、地名、组织机构名、有特殊含义的时间、日期和数字类型、以及用户自定义的实体类别等。命名实体识别在信息提取、问答系统、句法分析、机器翻译、元数据标注、知识图谱等应用领域具有十分重要的作用,也是这些领域中的重要基础工具。
中文的命名实体识别与英文的命名实体识别相比,挑战更大,目前未解决的难题更多。英文中的命名实体具有比较明显的形式标志,一般情况下实体中的每个句子的第一个字母要大写,人名地名等特殊词语每一个开头字母都需要大写或者单词字母全部都是大写,且词与词之间被空格分隔开,所以实体边界识别相对容易。英文命名实体识别的任务重点是确定实体的所属类别。和英文相比,中文命名实体识别任务更加复杂,而且相对于实体类别标注子任务,实体边界的识别更加困难。因为在中文语料中,虽然句子等可以被标点符号分隔开来,但是词语与词语之间是没有分隔符号的,即词语没有相互之间的明显边界。
早期命名实体识别方法主要依赖于规则和词典构建NER系统,例如根据词语出现的规则和概率并结合领域相关的实体词词典识别实体。该方法的优点在于不需要对语料库进行人工标注,但缺点是拓展性差。到2000年初,传统机器学习(Machine Learning,ML)方法被用来进行命名实体识别的序列标注。相关的方法有隐马尔可夫模型(Hidden MarkovModel,HMM)、条件随机场(Conditional Random Field,CRF)、支持向量机(Support VectorMachine,SVM)、最大熵模型(Maximum Entropy Models,MEM)等先行序列标注模型和统计概率模型,其中CRF由于不需要加入独立性的假设并且具有极强的推理能力是目前表现最佳的模型。此后,随着深度学习(Deep Learning,DL)领域的兴起,在自然语言处理上的研究取得了新的进展,使自然语言能够使用循环神经网络(Recurrent Neural Network,RNN)这种深度神经网络模型进行处理。之后出现的长短记忆网络(Long Short-Term Memory,LSTM)和门控循环单元(Gate Recurrent Unit,GRU)则解决了一般RNN中存在的问题。
2018年11月,Google开源的双向编码器表征(Bidirectional EncoderRepresentation from Transformers,BERT)模型是一个自然语言处理十分重要的里程碑,其特点在于它是一个双向训练模型;而之前的模型都是单一方向的,比如从左到右或从右到左的顺序训练文本序列。与单向训练相比,双向训练对语言的理解效果更加理想。为了克服双向模型有限制的问题,BERT使用了完型填空(Masked Language Model,MLM)和句子预测(Next Sentence Prediction,NSP)使这两种策略的组合损失函数最小化,其优点在于比RNN更高效捕捉大段文字之间的依赖,但缺点是收敛较其他模型来说比较慢。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海浦东华宇信息技术有限公司,未经上海浦东华宇信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010692896.X/2.html,转载请声明来源钻瓜专利网。