[发明专利]一种基于地震新闻事件的地震数据结构化自动方法在审

专利信息
申请号: 202010799527.0 申请日: 2020-08-11
公开(公告)号: CN111950199A 公开(公告)日: 2020-11-17
发明(设计)人: 俞一奇;邱彦林;陈尚武 申请(专利权)人: 杭州叙简科技股份有限公司
主分类号: G06F30/27 分类号: G06F30/27;G06F16/951;G06K9/62;G06N3/04
代理公司: 北京科亿知识产权代理事务所(普通合伙) 11350 代理人: 汤东凤
地址: 311121 浙江省杭州市余杭区*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 地震 新闻 事件 数据结构 自动 方法
【权利要求书】:

1.一种基于地震新闻事件的地震数据结构化自动方法,其特征在于,包括如下步骤:

步骤(1):利用网络爬虫爬取地震网站的相关新闻;预先选取地震新闻源网站并设置对应的XPath路径,爬虫会自动下载新闻列表中的所有新闻;

步骤(2):通过BIO标注方式,对采集到的新闻数据标注其中的触发词和事件要素;

步骤(3):将标注完的新闻数据集随机划分为训练数据集和测试数据集,其中测试数据集占20%;

步骤(4):构建地震事件抽取模型,地震事件抽取模型采用Bi-LSTM和CRF组合的方式实现;

步骤(5):训练步骤(4)构建的地震事件抽取模型;

步骤(6):将训练好的地震事件抽取模型部署到实际应用中。

2.根据权利要求1中所述的一种基于地震新闻事件的地震数据结构化自动方法,其特征在于,步骤(1)中的触发词是先决条件,只有检测到触发词,认为是地震事件,才会进一步提取事件要素;

触发词用于判断是否为地震事件,包含‘地震’关键词,若检测到触发词,则认为是地震事件;事件要素包含发生时间、震中位置、震源深度、震级、受伤人数、死亡人数、直接经济损失这7类内容;其中,“B-事件要素”代表某一要素的开头,“I-事件要素”代表某一要素的中间,“O”代表非事件要素。

3.根据权利要求1中所述的一种基于地震新闻事件的地震数据结构化自动方法,其特征在于,步骤(4)的具体流程如下:

(4.1)、地震事件抽取模型输入为新闻内容的字符,内容长度任意,记为n;首先通过word2vec模块将每一个字符转化为对应的向量xi;word2vec模块是一个已经训练完成的开源字符向量库,其中收录了中文字符、英文字母、标点符号等常用字符,且每一个字符对应的向量xi维度大小均为100;查找新闻内容每一个字符对应的向量,该word2vec模块最后输出为n×100(x1,x2,…,xn),其中Λ代表长度为100的向量,此步骤目的是使新闻内容数字化;

(4.2)、将上一步骤(4.1)中每一个字符对应的向量xi,依次作为Bi-LSTM模块的输入,经过循环计算,得到每一个LSTM单元的输出向量yi,向量yi的维度大小为17,向量yi的含义为17种标签对应的概率值,该Bi-LSTM模块最后输出为n×17(y1,y2,…,yn),其中Λ代表长度为17的向量;

(4.3)、将上一步骤(4.2)中每一个单元输出的概率值通过CRF层得到最终结果路径;CRF层加入一些约束来保证最终预测结果是有效的,这些约束可以在训练数据时被CRF层自动学习得到;CRF通过计算所有可能路径的得分进行训练和预测,设每种可能的路径的分数为Pi,共有N条路径,则路径的总分是

其中,表示第i个LSTM单元输出的对应标签的概率;表示第i个标签到第i+1个标签的跳转概率,此跳转概率属于CRF层的参数,在训练时会自动学习;

训练时,损失函数定义如下:

其中PRealPath代表真实路径得分;

实际预测时,取得分最高的路径作为最终结果,即

Ppredict=max(P1,P2,…,PN)。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州叙简科技股份有限公司,未经杭州叙简科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010799527.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top