[发明专利]金融公告的摘要提取方法与摘要提取终端在审
申请号: | 202110169301.7 | 申请日: | 2021-02-07 |
公开(公告)号: | CN112784585A | 公开(公告)日: | 2021-05-11 |
发明(设计)人: | 李明玉 | 申请(专利权)人: | 新华智云科技有限公司 |
主分类号: | G06F40/258 | 分类号: | G06F40/258;G06F40/30;G06F40/289 |
代理公司: | 杭州裕阳联合专利代理有限公司 33289 | 代理人: | 田金霞 |
地址: | 310012 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 金融 公告 摘要 提取 方法 终端 | ||
1.一种金融公告的摘要提取方法,其特征在于,所述方法包括:
获取多个原始金融公告;对每一个原始金融公告进行预处理,将每一个原始金融公告转化为公告文本;
对每一个公告文本进行核心元素的标注,生成多个核心元素标签;
对每一个公告文本进行粗召回处理,以压缩公告文本的内容,生成核心公告文本;
对每一个核心公告文本进行分句处理,在每一个句子中插入特殊标识符;
将每一个核心公告文本,以及核心公告文本对应的核心元素标签作为模型训练的输入数据,对中文预训练模型进行预训练,以建立该核心公告文本中每一个句子和其他句子的关联逻辑,以及建立核心元素所在句子的识别逻辑,并将关联逻辑和识别逻辑赋予所述特殊标识符;
获取待提取公告,将待提取公告进行所述预处理,生成待提取公告的公告文本,对所述待提取公告的公告文本进行所述核心元素的标注和粗召回处理,生成待提取公告的核心公告文本,对待提取公告的核心公告文本进行分句处理,并在每一个句子中插入特殊标识符;
将待提取公告的核心公告文本输入至中文预训练模型,驱动中文预训练模型将核心公告文本输入至中文预训练模型,获取中文预训练模型输出的每一个字符的语义向量;
从语义向量中筛选出与特征字符对应的语义向量,将每一个特殊字符的语义向量输入至中文预训练模型,驱动中文预训练模型基于二分类算法计算每一个语义向量的分类得分,提取分类得分大于或等于分类得分阈值的语义向量对应的句子组成摘要文本;
输出所述摘要文本。
2.根据权利要求1所述的金融公告的摘要提取方法,其特征在于,所述对每一个原始金融公告进行预处理,包括:
选取一个原始金融公告;
识别并去除原始金融公告中的多余字符;所述多余字符包括多余换行符、空格、乱码字符和不可见字符中的一种或多种;
识别并去除原始金融公告中的表格;
对原始金融公告进行文本转换,将原始金融公告转换为文本格式,生成公告文本;
返回选取一个原始金融公告的步骤,直至所有的原始金融公告均转换为公告文本。
3.根据权利要求2所述的金融公告的摘要提取方法,其特征在于,在对每一个公告文本进行核心元素的标注之前,所述方法还包括:
读取预设分类规则,基于预设分类规则,对多个公告文本进行分类。
4.根据权利要求3所述的金融公告的摘要提取方法,其特征在于,所述对每一个公告文本进行核心元素的标注,生成多个核心元素标签,包括:
选取一个公告文本;
读取所述公告文本的公告类型,并从数据库中读取与公告类型对应的多个核心元素;
搜寻所述公告文本中出现的与公告类型对应的核心元素,并标注核心元素所在的句子,生成多个核心元素标签;
返回选取一个公告文本的步骤,直至所有的公告文本均被标注完毕。
5.根据权利要求4所述的金融公告的摘要提取方法,其特征在于,所述对每一个公告文本进行粗召回处理,包括:
选取一个公告文本,
遍历无关字段库中的所有无关字段,去除所述公告文本中出现的无关字段所归属的句子,将剩余内容作为核心公告文本;
返回选取一个公告文本的步骤,直至所有的公告文本均进行过粗召回处理。
6.根据权利要求5所述的金融公告的摘要提取方法,其特征在于,所述对每一个核心公告文本进行分句处理,在每一个句子中插入特殊标识符,包括:
选取一个核心公告文本;
对所述核心公告文本进行分句处理,得到多个句子,在每一个句子的句首添加一个第一特殊字符,在每一个句子的句尾添加一个第二特殊字符;
返回选取一个核心公告文本的步骤,直至所有核心公告文本均进行过分句处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华智云科技有限公司,未经新华智云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110169301.7/1.html,转载请声明来源钻瓜专利网。