[发明专利]一种提升金融风险防控领域舆情实体识别率的方法在审
申请号: | 202010550784.0 | 申请日: | 2020-06-16 |
公开(公告)号: | CN111695346A | 公开(公告)日: | 2020-09-22 |
发明(设计)人: | 郑杰文 | 申请(专利权)人: | 广州商品清算中心股份有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F16/36;G06F16/953;G06F16/955;G06N3/04;G06N3/08 |
代理公司: | 新余市渝星知识产权代理事务所(普通合伙) 36124 | 代理人: | 张瑜生 |
地址: | 511455 广东省广州市南沙区海*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 提升 金融风险 领域 舆情 实体 识别率 方法 | ||
本发明涉及互联网技术领域,具体是一种提升金融风险防控领域舆情实体识别率的方法,包括以下步骤:S1.收集通用领域语料,诸如百度百科,维基百科,人民日报等,对语料中的通用实体进行BIO标签标注;S2.收集金融领域语料,只对语料中的金融简称、金融新实体等专用实体进行BIO标签标注,不对通用实体进行BIO标注;S3.选取深度学习NLP预训练模型,诸如bert预训练模型等;S4.挑选适合NER任务的下游模型,诸如bilstm_crf模型等。本发明的有益效果为利用基于深度学习的方法,通过分别训练基于NLP预训练模型的通用领域NER模型和基于NLP预训练模型的专用领域NER模型,再将二者抽取结果进行融合,从而提高金融领域舆情实体识别的抽取率。
技术领域
本发明涉及互联网技术领域,具体是一种提升金融风险防控领域舆情实体识别率的方法。
背景技术
在金融风险防控领域,需要对网络舆情进行有效监测。一是需要监控位列监控名单的企业及产品,二是需要及时发现新的金融实体;通常情况下,都是利用自然语言处理技术中的命名实体识别技术,抽取舆情中属于“机构”标签的实体作为该舆情的实体。
中国专利号201610037682.2提供一种舆情事件实体的分析方法及装置,涉及互联网技术领域,目的在于解决舆情监控系统不能准确分析出该舆情事件所涉及的人物和机构,导致用户不能通过舆情监控系统准确定位舆情事件产生的源头,从而导致不能及时确定解决该舆情事件的最佳引导方式的问题。本发明的技术方案包括:获取信息集合,并对信息集合进行分词;提取分词后的信息集合中的人物实体及机构实体;分别统计共同提及次数、人物实体提及次数以及机构实体提及次数;根据共同提及次数确定人物实体与机构实体之间的关联关系;根据人物实体提及次数和/或机构实体提及次数、人物实体与机构实体之间的关联关系确定舆情事件实体及实体关系。本发明应用于监控舆情事件的过程中。
但由于一般的NER抽取模型是基于类似百科、新闻类的通用预料训练而成,对常见的机构名称有较强的抽取能力,但对于抽取金融领域的简称或金融新实体,有较高的难度,无法准确识别,造成信息丢失。
发明内容
本发明的目的在于提供一种提升金融风险防控领域舆情实体识别率的方法,以解决上述背景技术中提出的对于抽取金融领域的简称或金融新实体,有较高的难度,无法准确识别,造成信息丢失的问题。
本发明的技术方案是:一种提升金融风险防控领域舆情实体识别率的方法,包括以下步骤:
S1.收集通用领域语料,诸如百度百科,维基百科,人民日报等,对语料中的通用实体进行BIO标签标注;
S2.收集金融领域语料,只对语料中的金融简称、金融新实体等专用实体进行BIO标签标注,不对通用实体进行BIO标注;
S3.选取深度学习NLP预训练模型,诸如bert预训练模型等;
S4.挑选适合NER任务的下游模型,诸如bilstm_crf模型等;
S5.构建训练NER任务的整体模型,利用S1中收集到的通用语料训练该整体模型,得到通用类实体提取模型,利用S2中收集到的金融领域专用语料,训练该整体模型,得到金融领域专用类实体提取模型;
S6.对于需要抽取实体的舆情,分别利用S5中训练得到的两个模型,独立进行抽取,通用实体提取模型负责提取诸如实体全称、常见实体等通用类实体,金融领域新实体提取模型负责提取实体简称、新实体等专业类实体,融合两个模型得到的实体抽取结果,即得到该舆情的实体抽取结果。
进一步地,所述S1中BIO标签为针对训练语料,将语料中的NER实体,通过BIO的方式进行标注的一种标注方式,其中PER表示人名,LOC表示地点,ORG 表示机构,其余的词语为O。
进一步地,所述S3中NLP即自然语言处理,是用计算机来处理、理解以及运用人类语言的过程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州商品清算中心股份有限公司,未经广州商品清算中心股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010550784.0/2.html,转载请声明来源钻瓜专利网。