[发明专利]一种提升金融风险防控领域舆情实体识别率的方法在审
申请号: | 202010550784.0 | 申请日: | 2020-06-16 |
公开(公告)号: | CN111695346A | 公开(公告)日: | 2020-09-22 |
发明(设计)人: | 郑杰文 | 申请(专利权)人: | 广州商品清算中心股份有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F16/36;G06F16/953;G06F16/955;G06N3/04;G06N3/08 |
代理公司: | 新余市渝星知识产权代理事务所(普通合伙) 36124 | 代理人: | 张瑜生 |
地址: | 511455 广东省广州市南沙区海*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 提升 金融风险 领域 舆情 实体 识别率 方法 | ||
1.一种提升金融风险防控领域舆情实体识别率的方法,其特征在于,包括以下步骤:
S1.收集通用领域语料,诸如百度百科,维基百科,人民日报等,对语料中的通用实体进行BIO标签标注;
S2.收集金融领域语料,只对语料中的金融简称、金融新实体等专用实体进行BIO标签标注,不对通用实体进行BIO标注;
S3.选取深度学习NLP预训练模型,诸如bert预训练模型等;
S4.挑选适合NER任务的下游模型,诸如bilstm_crf模型等;
S5.构建训练NER任务的整体模型,利用S1中收集到的通用语料训练该整体模型,得到通用类实体提取模型,利用S2中收集到的金融领域专用语料,训练该整体模型,得到金融领域专用类实体提取模型;
S6.对于需要抽取实体的舆情,分别利用S5中训练得到的两个模型,独立进行抽取,通用实体提取模型负责提取诸如实体全称、常见实体等通用类实体,金融领域新实体提取模型负责提取实体简称、新实体等专业类实体,融合两个模型得到的实体抽取结果,即得到该舆情的实体抽取结果。
2.根据权利要求1所述的一种提升金融风险防控领域舆情实体识别率的方法,其特征在于:所述S1中BIO标签为针对训练语料,将语料中的NER实体,通过BIO的方式进行标注的一种标注方式,其中PER表示人名,LOC表示地点,ORG表示机构,其余的词语为O。
3.根据权利要求1所述的一种提升金融风险防控领域舆情实体识别率的方法,其特征在于:所述S3中NLP即自然语言处理,是用计算机来处理、理解以及运用人类语言的过程。
4.根据权利要求1所述的一种提升金融风险防控领域舆情实体识别率的方法,其特征在于:所述S3中预训练模型是通过大量无标注的语言文本进行语言模型的训练,得到一套模型参数,这个模型及对应的参数就是预训练模型。
5.根据权利要求1所述的一种提升金融风险防控领域舆情实体识别率的方法,其特征在于:所述S3中深度学习是一种以多层人工神经网络为架构,对数据进行表征学习的算法,常见深度学习框架有深度神经网络、卷积神经网络、循环神经网络等。
6.根据权利要求1所述的一种提升金融风险防控领域舆情实体识别率的方法,其特征在于:所述S4中NER为命名实体识别,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。
7.根据权利要求1所述的一种提升金融风险防控领域舆情实体识别率的方法,其特征在于:所述S4中的下游模型是用于基于预训练模型下游任务的模型。
8.根据权利要求1所述的一种提升金融风险防控领域舆情实体识别率的方法,其特征在于:所述S5中的整体模型的构建方法为用预训练模型叠加S4中的下游模型。
9.根据权利要求1所述的一种提升金融风险防控领域舆情实体识别率的方法,其特征在于:所述S5中通用类实体提取模型和金融领域专用类实体提取模型的训练互相独立,可以同步进行。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州商品清算中心股份有限公司,未经广州商品清算中心股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010550784.0/1.html,转载请声明来源钻瓜专利网。