[发明专利]一种双语联合语义角色的标注方法有效
申请号: | 201010248198.7 | 申请日: | 2010-08-09 |
公开(公告)号: | CN101908042A | 公开(公告)日: | 2010-12-08 |
发明(设计)人: | 宗成庆;庄涛 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 梁爱荣 |
地址: | 100080 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 双语 联合 语义 角色 标注 方法 | ||
技术领域
本发明涉及自然语言处理技术领域,是一种在双语平行句子对上将源语言句子和目标语言句子联合起来做语义角色标注的方法。
背景技术
语义角色标注是一种浅层语义分析技术,它的目标是找出一个句子中的谓词的各个论元,并为这些论元加上表示其角色的标签。一个例子如下所示:
外商 投资 企业 成为 中国 外贸 投资 增长点
[ A0 ] [Pred] [ A1 ]
在上面的例子中,“成为”是谓词;“外商投资企业”是“成为”这个动作的施事者,从而是“成为”的一个论元,其角色标签是A0;“中国外贸投资增长点”是“成为”这个动作的受事者,从而是“成为”的另一个论元,其角色标签是A1。目前广泛使用的一个语义角色标注体系是命题库(PropBank)的标注体系,关于这个标注体系的具体说明可以参考文献【Martha Palmer,Daniel Gildea,and Paul Kingsbury.2005.The Proposition Bank:An Annotated Corpus of Semantic Roles.Computational Linguistics,31(1):71-106.】。所述标注体系定义了一套通用的标签集,所述标签集中有A0、A1、A2、A3、A4、A5这六个关键语义角色标签,以及以AM开头的许多附属性语义角色标签,如AM-TMP,AM-ADV等。对于一个谓词,不同的语义角色表示不同的含义。例如语义角色A0表示谓词所代表的动作的施事者,而语义角色A1则表示谓词所代表的动作的受事者。从上述的例子我们可以看出,语义角色标注能够提取出一个句子的谓词-论元结构,从而反映出这个句子的语义框架。如果语义角色标注能够做好,将能极大地提高包括信息检索与抽取、机器翻译、自动文摘在内的多项技术的水平。
我们称对双语平行句子对进行语义角色标注为双语的语义角色标注。双语的语义角色标注有着重要的应用领域,例如机器翻译。近几年来,许多研究者对多种语言的语义角色标注进行了大量的研究。但是却没有人提出一个有效地进行双语的语义角色标注的方法。由于英语有着较为丰富的语义角色标注语料库,而德语却缺乏这样的语料库,所以有学者曾经提出一种利用英德平行语料库来自动生成一些德语语义角色标注语料的方法。这种方法只在英语端作语义角色标注,然后利用词对齐将英语端的结果映射到德语端。这种方法简单地将英语端的结果映射到德语端,忽视了两种语言的差异性,因而在德语端得到的语义角色标注结果很差。所以这种方法无法解决双语的语义角色标注问题。对于双语的语义角色标注,另外一种传统的方法是在源语言端和目标语言端分别进行单语的语义角色标注。但是,这种方法没有挖掘和利用双语句子对所包含的语义上的深层信息,而只将其视为两种不同语言各自的语义角色标注问题。由于目前单语的语义角色标注的准确率都不高,上述的传统的方法很难在源语言端和目标语言端同时获得准确的语义角色标注结果。
发明内容
针对传统方法的缺陷,本发明的目的在于利用双语之间论元结构的一致性来提高语义角色标注的准确率,并且同时对齐源语言端和目标语言端的论元。
为了实现所述目的,本发明提供一种双语联合语义角色的标注方法,所述方法的步骤如下:
步骤1:对双语句子对进行分词、词性标注和自动词对齐,并找出双语句子对中包含的谓词对;
步骤2:针对所述的谓词对,利用单语语义角色标注系统为每一个谓词生成多个语义角色标注结果,从而得到多个初始候选论元;
步骤3:将所述初始候选论元进行合并,得到正式候选论元;
步骤4:针对所述正式候选论元,利用双语联合推断模型同时生成双语句子对的语义角色标注结果。
优选实施例,逐个考察双语句子对中自动对齐的词对,如果自动对齐的词对中的两个词都是动词,则认为这一对词是一个谓词对;从双语句子对中找出所有这样的谓词对。
优选实施例,所述生成多个语义角色标注结果的具体步骤如下:
步骤21:对双语句子对中的每一个句子,使用句法分析器生成多个句法分析结果;
步骤22:将所述的每一个句法分析结果输入给单语的语义角色标注系统,从而得到一个语义角色标注结果,所述语义角色标注结果中的每一个论元都是一个初始候选论元。
优选实施例,所述对初始候选论元进行合并是将具有相同位置和标签的初始候选论元合并成一个正式候选论元。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010248198.7/2.html,转载请声明来源钻瓜专利网。