[发明专利]一种基于规则的中文结构化金融事件缺省补全抽取方法在审

专利信息
申请号: 202011201846.3 申请日: 2020-11-02
公开(公告)号: CN112749548A 公开(公告)日: 2021-05-04
发明(设计)人: 万齐智;万常选;胡蓉;刘德喜 申请(专利权)人: 万齐智;万常选;胡蓉;刘德喜
主分类号: G06F40/211 分类号: G06F40/211;G06F40/279;G06F40/30
代理公司: 北京保识知识产权代理事务所(普通合伙) 11874 代理人: 尹莹莹
地址: 330013 江西省南昌市昌北国家经济*** 国省代码: 江西;36
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 规则 中文 结构 金融 事件 缺省 抽取 方法
【说明书】:

发明公开了一种基于规则的中文结构化金融事件缺省补全抽取方法,属于信息抽取技术领域,结合缺省的“三个平面”理论界定,提出了四种常见的缺省结构;针对各种缺省结构,通过分析财经领域和句法语义依存分析事件图中句法语义特点,设计了十种事件成分缺省补全规则,实现了事件缺省成分的补全,解决了抽取的事件成分存在大量缺失的难题。据了解本发明是第一个基于规则的中文结构化金融事件缺省补全抽取方法,不需要人工标注数据,且补全抽取的精确率和召回率较好。

技术领域

本发明涉及信息抽取技术领域,尤其涉及一种基于规则的中文结 构化金融事件缺省补全抽取方法。

背景技术

面对每天产生的巨大数据,如何从这些数据中挖掘出有价值的知 识,具有重大意义。作为信息抽取子领域的事件抽取,抽取的内容可 以帮助事件使用者更合理地作出判断和决策。在财经领域,政府部门 可以借助抽取的事件预测股票走势,为调控市场提供较为有力的支 撑。财经领域重点关注事件是何种行为动作,以及会带来何种影响结 果,这对预测股市走势至关重要,而这些内容主要包含于语句的主谓 宾中,因此针对财经领域,可抽取包含主谓宾的结构化金融事件。但 是,介于中文语言多短句、多动词、多省略的特点,抽取的结构化事 件存在大量的成分缺失,很大程度上影响事件的使用效果,所以需要 对事件中实际存在但因缺省而无法抽取到的成分进行补全。

目前已有一些学者对开放域结构化事件抽取展开研究,Ding首 次提出采用结构化事件预测股票价格波动,并采用信息开放技术抽取 定义的四元组结构化事件,但该研究在抽取的事件谓语和论元上增加 了较多限制,如谓语需要动词开始介词结束、主语必须处于谓语左边 等,这些限制导致大量的事件被过滤掉了。

在后续的相关研究中,主流采用贝叶斯图形模型方法抽取结构化 事件,但这些研究均假设一个文档中所有词都来源于一个单独事件, 这对于短文本貌似成立,但对于长文本则不太合适。此外,贝叶斯图 形模型常常依赖于用吉布斯抽样进行参数推断,这可能导致需要较长 时间收敛。为了解决这些限制,Wang等人提出一个对抗-神经事件模 型来抽取结构化事件。对于以上提到的方法,存在两点不足,一是需 要大量人工标注数据用以模型训练,二是没有考虑抽取的事件成分缺 失问题。其他对于结构化事件抽取研究中关于成分缺省补全的现在还 比较少。

由于上述方法存在着较大的局限性,且较少研究考虑事件成分缺 省补全问题,因此需要一种简单的、人工标注数据尽量少的事件缺省 成分补全方法,以提高抽取的结构化事件的使用价值。

发明内容

本发明为解决上述问题,而提出的一种基于规则的中文结构化金 融事件缺省补全抽取方法。

为了实现上述目的,本发明采用了如下技术方案:

一种基于规则的中文结构化金融事件缺省补全抽取方法,所述的 结构化事件记为:ET=(Sub,Pred,Obj),其中Sub、Pred和Obj 分别表示事件的主语、谓语和宾语,补全的成分为Sub和Obj,包含 以下步骤:

A.分析中文语言缺省特征及人们的表达习惯,结合缺省的“三 个平面”理论界定,提出四种常见缺省结构;

B.利用已有方法构建句法语义依存分析事件图;

C.针对各种缺省情况,结合财经领域和句法语义依存分析事件 图中句法语义的特点,设计十种事件成分缺省补全规则;

D.分析句法语义依存分析事件图中每个事件的Sub和Obj,为 每个存在缺省成分的结点建立其与缺省成分之间的依存关系;

E.扫描句法语义依存分析事件图中每个事件的核心动词(即事 件谓语Pred),分别获取其孩子结点中句法依存关系为SBV的主语 作为事件的主语Sub、句法依存关系为VOB的宾语作为事件的Obj, 即完成ET形式的结构化金融事件缺省补全抽取。

进一步地,所述中文语言特征和人们表达习惯包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于万齐智;万常选;胡蓉;刘德喜,未经万齐智;万常选;胡蓉;刘德喜许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011201846.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top