[发明专利]一种基于地震新闻事件的地震数据结构化自动方法在审
| 申请号: | 202010799527.0 | 申请日: | 2020-08-11 |
| 公开(公告)号: | CN111950199A | 公开(公告)日: | 2020-11-17 |
| 发明(设计)人: | 俞一奇;邱彦林;陈尚武 | 申请(专利权)人: | 杭州叙简科技股份有限公司 |
| 主分类号: | G06F30/27 | 分类号: | G06F30/27;G06F16/951;G06K9/62;G06N3/04 |
| 代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 汤东凤 |
| 地址: | 311121 浙江省杭州市余杭区*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 地震 新闻 事件 数据结构 自动 方法 | ||
1.一种基于地震新闻事件的地震数据结构化自动方法,其特征在于,包括如下步骤:
步骤(1):利用网络爬虫爬取地震网站的相关新闻;预先选取地震新闻源网站并设置对应的XPath路径,爬虫会自动下载新闻列表中的所有新闻;
步骤(2):通过BIO标注方式,对采集到的新闻数据标注其中的触发词和事件要素;
步骤(3):将标注完的新闻数据集随机划分为训练数据集和测试数据集,其中测试数据集占20%;
步骤(4):构建地震事件抽取模型,地震事件抽取模型采用Bi-LSTM和CRF组合的方式实现;
步骤(5):训练步骤(4)构建的地震事件抽取模型;
步骤(6):将训练好的地震事件抽取模型部署到实际应用中。
2.根据权利要求1中所述的一种基于地震新闻事件的地震数据结构化自动方法,其特征在于,步骤(1)中的触发词是先决条件,只有检测到触发词,认为是地震事件,才会进一步提取事件要素;
触发词用于判断是否为地震事件,包含‘地震’关键词,若检测到触发词,则认为是地震事件;事件要素包含发生时间、震中位置、震源深度、震级、受伤人数、死亡人数、直接经济损失这7类内容;其中,“B-事件要素”代表某一要素的开头,“I-事件要素”代表某一要素的中间,“O”代表非事件要素。
3.根据权利要求1中所述的一种基于地震新闻事件的地震数据结构化自动方法,其特征在于,步骤(4)的具体流程如下:
(4.1)、地震事件抽取模型输入为新闻内容的字符,内容长度任意,记为n;首先通过word2vec模块将每一个字符转化为对应的向量xi;word2vec模块是一个已经训练完成的开源字符向量库,其中收录了中文字符、英文字母、标点符号等常用字符,且每一个字符对应的向量xi维度大小均为100;查找新闻内容每一个字符对应的向量,该word2vec模块最后输出为n×100(x1,x2,…,xn),其中Λ代表长度为100的向量,此步骤目的是使新闻内容数字化;
(4.2)、将上一步骤(4.1)中每一个字符对应的向量xi,依次作为Bi-LSTM模块的输入,经过循环计算,得到每一个LSTM单元的输出向量yi,向量yi的维度大小为17,向量yi的含义为17种标签对应的概率值,该Bi-LSTM模块最后输出为n×17(y1,y2,…,yn),其中Λ代表长度为17的向量;
(4.3)、将上一步骤(4.2)中每一个单元输出的概率值通过CRF层得到最终结果路径;CRF层加入一些约束来保证最终预测结果是有效的,这些约束可以在训练数据时被CRF层自动学习得到;CRF通过计算所有可能路径的得分进行训练和预测,设每种可能的路径的分数为Pi,共有N条路径,则路径的总分是
其中,表示第i个LSTM单元输出的对应标签的概率;表示第i个标签到第i+1个标签的跳转概率,此跳转概率属于CRF层的参数,在训练时会自动学习;
训练时,损失函数定义如下:
其中PRealPath代表真实路径得分;
实际预测时,取得分最高的路径作为最终结果,即
Ppredict=max(P1,P2,…,PN)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州叙简科技股份有限公司,未经杭州叙简科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010799527.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新能源汽车防过热充电枪
- 下一篇:一种油水分离釜





