[发明专利]一种基于知识图谱的事件信息处理系统有效
申请号: | 202210147145.9 | 申请日: | 2022-02-17 |
公开(公告)号: | CN114706992B | 公开(公告)日: | 2022-09-30 |
发明(设计)人: | 张正义;刘宸;傅晓航;常鸿宇 | 申请(专利权)人: | 中科雨辰科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F16/332;G06K9/62 |
代理公司: | 北京锺维联合知识产权代理有限公司 11579 | 代理人: | 安娜 |
地址: | 100093 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知识 图谱 事件 信息处理 系统 | ||
本发明提供了一种基于知识图谱的事件信息处理系统,所述系统包括:第一数据库、第二数据库、处理器和存储有计算机程序的存储器,第一数据库包括:样本事件ID和样本事件ID对应的样本文本列表,当计算机程序被处理器执行时,实现以下步骤:从第一数据库中获取样本事件ID对应的样本文本并根据样本文本,获取样本文本对应的多元组列表;根据所有样本文本和样本文本对应的多元组列表,获取训练集数据;将获取训练集数据输入至多元组构建模型进行训练,得到目标多元组构建模型。本发明能够根据实际样本事件构建训练集并获取目标多元组构建模型,使得准确的识别出同一实体不同描述,提高了模型的准确性和适用性。
技术领域
本发明涉及数据处理领域,具体涉及一种基于知识图谱的事件信息处理系统。
背景技术
随着互联网的迅速普及和发展,大量数据信息在网络中产生和传播,如何从海量自然语言文本中及时准确地找到需要的信息变得日益迫切。海量自然语言文档具有数据量大,结构不统一,冗余度较高、更新快等特点。现有技术中通常采用机器学习的方式训练得到一个事件抽取模型来进行事件抽取,事件抽取技术是从非结构化信息中抽取出用户感兴趣的事件,并以结构化呈现给用户。但是,直接采用一个事件抽取模型的方式进行事件抽取的方法比较依赖于关键词,如果关键词数量小、不全面或不合适的话会对事件抽取结果有很大的影响,尤其对于没有被作为训练样本的进行学习的事件类型,会导致事件抽取的准确度低,抽取的事件信息不完整。由此可知,如何提高事件抽取结果的完整性和准确性,成为亟待解决的技术问题。
发明内容
针对上述技术问题,本发明采用的技术方案为:
一种基于知识图谱的事件信息处理系统,所述系统包括:第一数据库、第二数据库、处理器和存储有计算机程序的存储器,所述第一数据库包括:样本事件ID和样本事件ID对应的样本文本列表,第二数据库包括:样本事件ID、样本事件ID对应的事件类型和事件类型对应的预设多元组列表,当所述计算机程序被处理器执行时,实现以下步骤:
S100、从所述数据库中获取A=(A1,A2,……,Am),Ai=(Ai1,Ai2,……, ),其中,Aij是指第i个样本事件ID对应的第j个样本文本,i=1……m,m为样本事件数量,j=1……ni,ni为第i个样本事件ID对应的样本文本列表中所有样本文本数量;
S200、根据Aij,获取Aij对应的初始实体列表(A1ij、A2ij,……,Apij),其中,Aqij是指Aij对应的第q个初始实体,q=1……p,p为初始实体数量;
S300、根据Aqij,获取Ai对应的样本事件ID的中间数据集=(A1i,A2i,……,Api),其中,Aqi=(Aqi1、Aqi2、……,);
S400、根据,获取Ai对应的样本事件ID的训练集;
S500、基于所有Ai对应的样本事件ID的训练集,构建成目标训练集数据。
S600、将目标训练集数据输入至事件图谱模型进行训练,得到目标事件图谱模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科雨辰科技有限公司,未经中科雨辰科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210147145.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种消化内科专用灌肠装置
- 下一篇:一种轮辋结构、车轮及车辆