[发明专利]一种基于事故灾害新闻的信息结构化方法有效
申请号: | 202011116412.3 | 申请日: | 2020-10-19 |
公开(公告)号: | CN112269949B | 公开(公告)日: | 2023-09-22 |
发明(设计)人: | 俞一奇;邱彦林;陈尚武 | 申请(专利权)人: | 杭州叙简科技股份有限公司 |
主分类号: | G06F16/9537 | 分类号: | G06F16/9537;G06F16/951;G06F16/335;G06F16/31;G06F40/151;G06F40/289;G06F18/214;G06N3/08;G06N3/0442 |
代理公司: | 杭州易中元兆专利代理有限公司 33341 | 代理人: | 叶卫强 |
地址: | 310023 浙江省杭州市五常*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 事故 灾害 新闻 信息 结构 方法 | ||
本发明公开了一种基于事故灾害新闻的信息结构化方法,首先利用网络爬虫,对事先设定好的各大门户网站爬取新闻数据作为初始语料库;然后利用深度学习方法构建事故灾害抽取模型,并用获取的新闻数据样本训练模型;再将抽取模型部署到分析系统中,对实时获取的每一条新闻抽取其事故类型和事故要素,并采用匹配、查找的算法将事故要素转化成标准格式后存入到数据库中。本发明可以针对海量的互联网新闻数据,自动、精准地抽取事故灾害事件及相关事件要素,便于检索、分析,为后续事故灾害统计和预防提供必要的数据信息;且不需要人为查找、筛选,大大降低了人力成本,具有重要的大数据应用研究价值。
技术领域
本发明涉及自然语言处理领域,具体涉及一种基于事故灾害新闻的信息结构化方法。
背景技术
近年来,随着社会经济的发展和人民生活水平的提高,各类企业、工厂的数量和规模都在扩大,但与此同时也造成各种事故灾害频发,给社会稳定和谐带来不利影响。事故灾害主要包括工矿商贸的安全生产事故、交通运输事故、环境污染和生态破坏事故等,且一般会有多个事件要素构成,如:发生时间、发生地点、受伤人数、死亡人数、经济损失等。国内每天都在发生大小事故数十起,而关于这些事故的相关新闻报道更是不计其数,从海量的新闻中抽取事故灾害要素并整合结构化,将为后续事故灾害统计和预防提供必要的数据信息。
随着互联网信息公开化程度的提升,事故灾害的发布渠道已从单一的政府公文扩展到各类新闻网站等网络渠道,利用自然语言处理技术对网络上爬取的原始新闻进行加工处理得到对应结果。该方法可实现自动获取事故灾害相关信息,便于后期统计、分析;且不需要人为提取、录入,大大降低了人力成本,具有重要的大数据价值。
发明内容
有鉴于此,本发明提出一种基于事故灾害新闻的信息结构化方法。通过网络爬虫不停地爬取各大网站的新闻,使用训练好的事故灾害抽取模型处理新闻内容判断其是否为事故灾害事件,若是则进一步抽取其中的相关要素并存入到数据库中,以便为后续事故灾害统计和预防提供必要的基础信息。为实现上述目的,本发明提供如下技术方案:
一种基于事故灾害新闻的信息结构化自动方法,包括以下步骤:
步骤一:利用网络爬虫,对事先设定好的各大门户网站爬取新闻数据作为初始语料库;
步骤二:利用深度学习方法构建事故灾害抽取模型,并用步骤一获取的新闻数据样本训练模型;
步骤三:将抽取模型部署到分析系统中,对实时获取的每一条新闻抽取其事故类型和事故要素,并采用匹配、查找的算法将事故要素转化成标准格式后存入到数据库中。
进一步的,步骤二包括以下步骤:
2.1:标注样本:通过BIO标注方式,对采集到的新闻数据标注其中的事故类型和事故要素,事故类型包括危化品、矿山、交通、建筑施工、火灾、工商贸,事故要素包括发生时间、发生地点、受伤人数、死亡人数、经济损失;
2.2:划分数据集:将标注完的新闻数据随机划分为训练数据集和测试数据集,其中测试数据集占20%;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州叙简科技股份有限公司,未经杭州叙简科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011116412.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种便于稳定移动的电气控制柜
- 下一篇:一种电弧故障判定方法