[发明专利]一种处理带格式风格文本的要素内容抽取方法在审
申请号: | 202110095807.8 | 申请日: | 2021-01-25 |
公开(公告)号: | CN112800762A | 公开(公告)日: | 2021-05-14 |
发明(设计)人: | 金鑫;李鹏辉 | 申请(专利权)人: | 上海犀语科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/295;G06F40/126;G06F40/30;G06F16/35;G06N3/04 |
代理公司: | 上海乐泓专利代理事务所(普通合伙) 31385 | 代理人: | 苏杰 |
地址: | 200082 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 处理 格式 风格 文本 要素 内容 抽取 方法 | ||
本发明的一种处理带格式风格文本的要素内容抽取方法及系统,方法包括如下步骤:S100、事件检测;S200、事件定义;S300、文本标注;S400、模型训练;S500、特征提取;S600、标签预测;系统包括事件检测模块和要素级别实体抽取模块,事件检测模块将文本生成对应的句子向量;采用BiLSTM‑CRF对长文本中的句子进行标注,区分出每个相关的独立事件,要素级别实体抽取模块采用预训练好的BERT模型进行特征提取,得到句子中每个字的嵌入向量,并捕捉双向的语义依赖,利用CRF来学习一个最优路径,进行实体级别的标签预测,可以提升文本数据的采集和录入的时间,提升效率节约人工成本。
技术领域
本发明属于文本处理技术领域,具体来说是一种处理带格式风格文本的要素内容抽取方法。
背景技术
传统意义上债券信息收集主要依靠人工筛选或正则匹配的形式来进行,该场景下的工作效率和系统录入准确率都不甚高。而在AI时代,利用自然语言处理(NLP)技术对银行间市场中的非结构化文本进行结构化后入库,从而及时有效地管理各种债券信息,是十分具有实用效益的。
发明内容
1.发明要解决的技术问题
本发明的目的在于解决现有的文本数据采集提取需要人工筛选录入,效率低下的问题。
2.技术方案
为达到上述目的,本发明提供的技术方案为:
本发明的一种处理带格式风格文本的要素内容抽取方法,所述方法具体包括如下步骤:
S100、事件检测;
S200、事件定义;
S300、文本标注;
S400、模型训练;
S500、特征提取;
S600、标签预测。
优选的,所述步骤S100具体为首先将文本中的事件触发词和事件元素都抽取出来如:发行人、债券品种、债券金额等实体元素。之后根据实体触发词和实体元素对应到相应的独立事件。
优选的,所述步骤S200具体为基于Ideal平台上所发布的信息,确定事件类型,首先定义触发词如:违约、发行等事件触发词。之后基于触发词再定义相关事件元素。
优选的,所述步骤S300具体为如果任务为事件检测,则对文本进行事件类型、事件触发词、事件元素标注。如果任务为实体识别,对相关文本进行BIO标注,其中B为begin代表某个实体类型开始,I为immediate表示某实体的中间位置,O为other代表其他,不是实体。
优选的,所述步骤S400中的模型训练具体为将批注好的句子级语料先进行分词,获取token级别的序列信息和注意力信息。将这些序列信息输入到预训练BERT模型中,在BERT模型中经过注意力机制、线性层来提取字向量表示,再输送到BiLSTM-CRF模型中,预测词向量的标签,将预测的标签和真实标签进行比较计算并反馈。不断重复这个过程,以得到训练后用于要素级别实体抽取的模型。
优选的,所述步骤S500具体为进行预测时,模型会对输入的文本进行向量化,并通过BERT获取信息向量,得到特征。
优选的,所述步骤S600具体为将获得的特征输入BILSTM-CRF中,已经学习过的模型进行预测出标签,最后根据标签进行实体的抽取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海犀语科技有限公司,未经上海犀语科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110095807.8/2.html,转载请声明来源钻瓜专利网。