[发明专利]融合依存句法信息和卷积神经网络的越南语新闻事件检测方法在审
申请号: | 201910635489.2 | 申请日: | 2019-07-15 |
公开(公告)号: | CN110377738A | 公开(公告)日: | 2019-10-25 |
发明(设计)人: | 余正涛;刘畅;高盛祥;张亚飞;王吉地;王振晗;郭军军 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/951;G06F17/27 |
代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 李晓亚 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 新闻事件检测 句法信息 融合 卷积神经网络 越南语 卷积编码 自然语言处理技术 编码过程 词性信息 句子级别 命名实体 设置事件 事件编码 事件检测 新闻事件 新闻文本 训练数据 词义 非连续 标注 检测 | ||
本发明涉及融合依存句法信息和卷积神经网络的越南语新闻事件检测方法,属于自然语言处理技术领域。本发明首先收集汉越双语新闻文本,根据事件的特征,设置事件类型、用于事件检测的标注体系,形成训练数据。然后融合依存句法信息的卷积神经网络,针对句子级别越南语新闻事件进行检测。首先在编码过程中融合了词义、位置信息、词性信息和命名实体信息。其次利用传统卷积编码连续词之间的特征,利用融合依存句法信息的卷积编码非连续词之间的特征,融合两部分特征作为事件编码,进而实现新闻事件检测。本发明在新闻事件检测中的取得了很好效果。
技术领域
本发明涉及融合依存句法信息和卷积神经网络的越南语新闻事件检测方法,属于自然语言处理技术领域。
背景技术
事件检测是自然语言处理的重要信息提取任务,旨识别文本中指定类型的事件。目前,事件检测研究大都在汉语、英语环境下展开,由于越南语属于资源稀缺型语种,针对越南语的事件检测暂无人涉及。因此,利用人工智能技术,机器自动检测越南语新闻文本中的新闻事件成为任务的难点和关键技术之一。
目前事件检测任务主要基于以下两类方法。(1)机器学习方法。张炫等人提出了以DPEMM模型为核心的事件抽取框架。裴东辉等人提出基于支持向量机模型的子事件类别自动识别。高永兵等人针对微博的特征进行TF-IDF的改进得出事件提取结果。(2)深度学习方法。Nguyen等人在已有研究的基础上提出一种基于递归神经网络的联合方法进行英文事件抽取。Chen等人提出动态多池卷积神经网络(DMCNN)解决了句中多个事件的识别以及共享参数匹配的问题。Nguyen等人使用卷积神经网络对句中的词进行卷积,以获得句中隐含的语义信息;上述针对的是其它语言的检测方法,因此本发明提出了一种融合依存句法信息和卷积神经网络的越南语新闻事件检测方法。
发明内容
本发明提供了融合依存句法信息和卷积神经网络的越南语新闻事件检测方法,以用于解决越南语新闻事件检测分类问题,实现了汉越双语新闻事件类型检测。
本发明的技术方案是:融合依存句法信息和卷积神经网络的越南语新闻事件检测方法,首先收集汉越双语新闻文本,根据事件的特征,设置事件类型、用于事件检测的标注体系,形成训练数据。然后融合依存句法信息的卷积神经网络,针对句子级别越南语新闻事件进行检测。首先在编码过程中融合了词义、位置信息、词性信息和命名实体信息。其次利用传统卷积编码连续词之间的特征,利用融合依存句法信息的卷积编码非连续词之间的特征,融合两部分特征作为事件编码,进而实现新闻事件检测;
所述检测方法的具体步骤如下:
Step1、语料收集:收集用于越南语事件检测新闻文本,使用Scrapy作为爬取工具,模仿用户操作,为越南语新闻网站定制不同的模板,根据页面数据元素的XPath路径制定模板获取详细数据,获取如新闻标题、新闻时间、新闻正文。再对新闻文本进行去重与筛选;
Step2、构建语料库:通过越南语事件检测的标注体系,根据越南语的语言特点以及事件检测的需求对越南文新闻文本进行标记,将标记好的越南语新闻语料分为训练语料、测试语料和验证集;
作为本发明的优选方案,所述步骤Step2中,新闻事件文本由触发词和参数组成,触发词能清楚的表达一类事件发生,触发事件的主要词通常是单个动词或者名词,参数描述事件发生的时间、地点、人物等信息;标注体系采用了XML的可扩展标记语言组织文本,分别对触发词、参数、事件类别进行标记,将收集到的越南语新闻文本进行标记,建立越南语新闻事件检测数据集。触发词表如表1所示。
表1为触发词表
Step3、文本向量化:训练越南语词向量,融合句中词序列的词向量、位置向量、词性向量和实体类型向量作为模型输入;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910635489.2/2.html,转载请声明来源钻瓜专利网。