[发明专利]一种结合稀疏编码和结构感知机的文本事件抽取方法有效
申请号: | 201610955220.9 | 申请日: | 2016-10-27 |
公开(公告)号: | CN106599032B | 公开(公告)日: | 2020-01-14 |
发明(设计)人: | 汤斯亮;吴飞;杨启凡;邵健;郝雷光;庄越挺 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/35 |
代理公司: | 33200 杭州求是专利事务所有限公司 | 代理人: | 张法高;傅朝栋 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 暂无信息 | 说明书: | 暂无信息 |
摘要: | 本发明公开了一种结合稀疏编码和结构感知机的文本事件抽取方法。包括如下步骤:1)将文本数据依照ACE或RichERE规范标注构建为训练样本;2)将提取得到的实体作为事件触发词和事件参数的候选实体,抽取文本特征;3)进一步抽取文本分布式词向量特征,学习稀疏编码特征;4)利用训练样本和提取的文本特征,训练结构感知机分类器,同时识别文本中与关于事件的触发词和参数;5)对于新的文本数据,经过步骤1后输入结构感知机分类器,抽取文本事件信息。本发明利用了基于神经网络的分布式词向量特征的稀疏编码表达,强化了文本特征,另一方面使用结构感知机模型同时来学习事件触发词和事件参与者的识别,据此获得了更好的事件抽取效果。 | ||
搜索关键词: | 一种 结合 稀疏 编码 结构 感知 文本 事件 抽取 方法 | ||
【主权项】:
1.一种结合稀疏编码和结构感知机的文本事件抽取方法,其特征在于包括如下步骤:/n1)将文本数据依照Automatic Content Extraction和/或Rich Entity RelationEvent规范标注构建为训练样本;/n2)将提取得到的实体作为事件触发词和事件参数的候选实体,抽取文本特征;/n3)进一步抽取文本分布式词向量特征,学习稀疏编码特征;/n4)利用训练样本和提取的文本特征,训练结构感知机分类器,同时识别文本中与关于事件的触发词和参数;/n5)对于新的文本数据,经过步骤1)后输入结构感知机分类器,抽取文本事件信息;/n所述的步骤3)包括:/n3.1)利用神经网络构建语言模型,将所有文档作为训练语料,训练该语言模型,得到单词对应的分布式词向量表达x
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610955220.9/,转载请声明来源钻瓜专利网。