[发明专利]金融领域舆情监控中的事件抽取方法、装置和计算机设备有效
申请号: | 202011414476.1 | 申请日: | 2020-12-07 |
公开(公告)号: | CN112507059B | 公开(公告)日: | 2022-05-24 |
发明(设计)人: | 宗天元;李煜;丑晓慧 | 申请(专利权)人: | 宁波深擎信息科技有限公司;上海深擎信息科技有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/35;G06K9/62;G06N3/04 |
代理公司: | 长沙国科天河知识产权代理有限公司 43225 | 代理人: | 邱轶 |
地址: | 315000 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 金融 领域 舆情 监控 中的 事件 抽取 方法 装置 计算机 设备 | ||
1.一种金融领域舆情监控中的事件抽取方法,其特征在于,所述方法包括:
从金融新闻文本中获取样本数据,对所述样本数据进行预处理,得到样本集;所述样本集中每条样本包括:文本ID、事件和实体;
获取预先设置的多个不同的事件抽取模型,根据所述样本集通过K折交叉验证的方式对所述事件抽取模型进行训练,得到每个所述事件抽取模型的K个事件抽取子模型;
将待抽取文本进行预处理后输入每个所述事件抽取模型的K个事件抽取子模型,输出待抽取文本对应的预测文本ID、预测事件和预测实体,根据预测文本ID、预测事件和预测实体构建三元组;
采用投票方式对每个所述事件抽取模型的K个事件抽取子模型输出的三元组进行投票,确定真实三元组。
2.根据权利要求1所述的方法,其特征在于,所述从金融新闻文本中获取样本数据,对所述样本数据进行预处理,得到样本集,包括:
从金融新闻文本中获取样本数据;所述样本数据包括:文本ID、文本内容、事件类型和事件主体;
对所述样本数据中包含的事件类型和事件主体进行归集,得到包含一个文本内容、一个事件类型和一个事件主体的预处理样本数据;
对所述预处理样本数据进行去符号文本,以及对空格进行替换,并转化为预设训练格式的样本,根据所述样本,得到样本集。
3.根据权利要求1所述的方法,其特征在于,所述获取预先设置的多个不同的事件抽取模型,包括:
获取RoBETa-wwm-ext、BiLSTM以及CRF融合的第一事件抽取模型;
获取ZEN、BiLSTM和CRF融合的第二事件抽取模型;
获取RoBERTa-wwm-ext+和多层指针网络融合的第三事件抽取模型;
获取管道模型作为第四事件抽取模型。
4.根据权利要求3所述的方法,其特征在于,所述采用投票方式对每个所述事件抽取模型的K个事件抽取子模型输出的三元组进行投票,确定真实三元组,包括:
分别对第一事件抽取模型、第二事件抽取模型、第三事件抽取模型以及第四事件抽取模型对应的K个事件抽取子模型输出的三元组进行投票,得到第一事件抽取模型、第二事件抽取模型、第三事件抽取模型以及第四事件抽取模型输出的预测三元组;
对第一事件抽取模型、第二事件抽取模型、第三事件抽取模型以及第四事件抽取模型输出的预测三元组进行投票,得到真实三元组。
5.一种金融领域舆情监控中的事件抽取装置,其特征在于,所述装置包括:
数据预处理模块,用于从金融新闻文本中获取样本数据,对所述样本数据进行预处理,得到样本集;所述样本集中每条样本包括:文本ID、事件和实体;
K折训练模块,用于获取预先设置的多个不同的事件抽取模型,根据所述样本集通过K折交叉验证的方式对所述事件抽取模型进行训练,得到每个所述事件抽取模型的K个事件抽取子模型;
预测模块,用于将待抽取文本进行预处理后输入每个所述事件抽取模型的K个事件抽取子模型,输出待抽取文本对应的预测文本ID、预测事件和预测实体,根据预测文本ID、预测事件和预测实体构建三元组;
投票模块,用于采用投票方式对每个所述事件抽取模型的K个事件抽取子模型输出的三元组进行投票,确定真实三元组。
6.根据权利要求5所述的装置,其特征在于,所述数据预处理模块还用于从金融新闻文本中获取样本数据;所述样本数据包括:文本ID、文本内容、事件类型和事件主体;对所述样本数据中包含的事件类型和事件主体进行归集,得到包含一个文本内容、一个事件类型和一个事件主体的预处理样本数据;对所述预处理样本数据进行去符号文本,以及对空格进行替换,并转化为预设训练格式的样本,根据所述样本,得到样本集。
7.根据权利要求5所述的装置,其特征在于,所述K折训练模块还用于获取RoBETa-wwm-ext、BiLSTM以及CRF融合的第一事件抽取模型;获取ZEN、BiLSTM和CRF融合的第二事件抽取模型;获取RoBERTa-wwm-ext+和多层指针网络融合的第三事件抽取模型;获取管道模型作为第四事件抽取模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁波深擎信息科技有限公司;上海深擎信息科技有限公司,未经宁波深擎信息科技有限公司;上海深擎信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011414476.1/1.html,转载请声明来源钻瓜专利网。