[发明专利]一种融合规则与深度学习的汽车新闻事件抽取方法有效
申请号: | 201810638065.7 | 申请日: | 2018-06-20 |
公开(公告)号: | CN110633409B | 公开(公告)日: | 2023-06-09 |
发明(设计)人: | 黄海量;韩松乔 | 申请(专利权)人: | 上海财经大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/33;G06F40/284;G06F40/289;G06N3/045;G06N3/0442;G06N3/08 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 翁惠瑜 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 规则 深度 学习 汽车新闻 事件 抽取 方法 | ||
本发明涉及一种融合规则与深度学习的汽车新闻事件抽取方法,包括:文本预处理步骤,获取网络新闻文本数据,包括新闻语料和百科数据,对所述网络新闻文本数据进行文本预处理,基于预处理后的新闻语料和百科数据形成训练集,对词向量和字向量进行训练;基于规则的基模型构建步骤,提取汽车行业新闻事件所需抽取的关键属性,建立适用于汽车领域的本体知识库,构建基于规则的基模型;深度学习神经网络训练步骤,搭建并训练用于判断事件类别的BiLSTM+CRF网络;事件抽取步骤,基于所述BiLSTM+CRF网络对未标注新闻语料进行识别,获取对应的事件类别。与现有技术相比,本发明具有高效、精度高、适用于汽车行业领域等优点。
技术领域
本发明涉及自然语言处理领域,具体涉及信息抽取技术领域,尤其是涉及一种融合规则与深度学习的汽车新闻事件抽取方法。
背景技术
信息抽取(Information Extraction)是指从自然语言形式的文档中抽取人们所感兴趣的信息,并将其转变为结构化信息的过程,包括命名实体识别、关系抽取、事件抽取。事件抽取是从非结构化的文本中抽取出用户感兴趣的事件信息,并以结构化的形式保存起来以供后续的分析应用,其在自动摘要、自动问答、信息检索等领域有着广泛的应用。尤其是在“互联网+”为主导思想的新媒体强烈冲击下,信息量呈现指数级的增长,除了易于获得和处理数值型数据外,文本型数据中蕴藏的数量巨大、形式多样、内容丰富的信息更值得探索。
在行业领域,尤其是汽车行业,无时无刻都在产生着海量文本型数据,主要有新闻报道和网络舆情等,但难以获得和处理,信息不对称性在汽车行业文本中表现尤其显著。然而汽车行业不断竞争与发展,对汽车新闻事件越来越敏感。研究面向汽车领域的事件抽取对于深入分析汽车领域的文本信息、为汽车广告投放以及制定营销策略等具有重要意义。
由于中文表达方式多样、语义复杂,所以目前针对于这种非结构化的中文文本信息抽取的相关研究较少。同时事件句中的事件元素往往存在不同的特征和模式,不同主题事件所包含的事件元素不同,其识别难度也不同,因此现有的研究一般针对具体的文本或事件主题设计识别任务,集中在基于规则模式或者基于机器学习的方法。基于规则模式的方法的优点是所需要的标注语料较少,甚至可以不需要标注语料,规则可解释性强,易于调整,但该方法灵活性差,查全率较低,可移植性低。基于机器学习的方法一定程度上解决了上述问题,但学习模型效果的好坏在很大程度上依赖于训练语料的规模和标注质量,并且运行时间和效率均会随着语料中符号类别的多少呈线性增长。尽管这些研究取得了一定的成果,但它们与实际应用还存在较大差距。造成这一问题的根本原因是传统方法无法找到通用的模板或机器学习模型实现各语料通用的自动抽取。其主要问题具体体现在以下方面:
1)语料标注问题。传统的事件模板获取方法需要人工对训练语料进行标注,这种方法依赖于大量标注好的语料,不仅费时费力而且当训练语料发生变化时,事件模板还需要重新提取,代价过高。
2)系统的移植性问题。为进一步减少人工标注,提高系统的移植性,学者们已经开始探索使用半监督的方法来获取事件模板。国外学者英文语料中基于预定义种子模板应用文档相关度方法,但是中文特点不同,词汇表达更灵活,事件触发词个数更远大于英文触发词。即使用从语义相似度的方法与种子模板匹配,也会存在大量的无效模板,会迅速恶化抽取结果的准确率。
上述所存在的问题,严重制约了事件抽取在汽车行业中的研究和应用。传统的基于模式匹配的方法和基于机器学习的方法无法直接应用于汽车行业广告投放以及制定营销策略等,必须建立适应汽车行业的新型事件抽取方法。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种融合规则与深度学习的汽车新闻事件抽取方法。
本发明的目的可以通过以下技术方案来实现:
一种融合规则与深度学习的汽车新闻事件抽取方法,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海财经大学,未经上海财经大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810638065.7/2.html,转载请声明来源钻瓜专利网。