[发明专利]基于事件结构的中文语句分析方法无效
申请号: | 201210439007.4 | 申请日: | 2012-11-07 |
公开(公告)号: | CN103268311A | 公开(公告)日: | 2013-08-28 |
发明(设计)人: | 张旭洁;朱平;刘宗田;刘炜;王东;田垅 | 申请(专利权)人: | 上海大学;国际竹藤中心 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 上海上大专利事务所(普通合伙) 31205 | 代理人: | 何文欣 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 事件 结构 中文 语句 分析 方法 | ||
1.基于事件结构的中文语句分析方法,其特征在于:将一个中文句子表示为若干事件指示词和与之对应的事件角色包括非事件相关成分的树形结构,事件结构的中文语句分析具体操作步骤如下:
A、语句预处理:采用词法与语法分析工具对语句进行分词、词性标注、依存句法分析的预处理;
B、基于事件的中文语句分析:对预处理后的语句进行基于事件的中文语句分析;找出语句中的事件指示词和与之对应的事件角色,分析多角色成分和非事件相关成分;
C、添加标签与功能说明:对分析后的语句添加标签和功能说明,标注对象包括事件指示词、事件角色和非事件角色三块主要成分,给出树形表示结构的括号表示形式。
2.根据权利要求1所述的基于事件结构的中文语句分析方法,其特征在于:所述步骤A所述的语句预处理的具体操作方法如下:
采用哈尔滨工业大学社会计算与信息检索研究中心提供的语言技术平台LTP2.1对语句进行分词、词性标注——采用中国国家863评测用词性标记集、依存句法分析处理,机器处理后的语句标注语句号,单词号,同时标记了每个单词的词性和依存关系。
3.根据权利要求1所述的基于事件结构的中文语句分析方法,其特征在于,所述步骤B所述的基于事件的中文语句分析的具体实施步骤如下:
B1、确定语句中的事件指示词:找出句子中的所有动词与事件专有名词,对动词进行分类,动词类型包括实意动词和抽象动词,分析各动词的依存关系,如果动词的依存关系为定中关系(ATT)或者几个动词为并列关系(COO)其中一个动词的依存关系为ATT则这些动词为修饰成分,其余的事件专有名词和动词均为事件指示词,下面对确定语句中事件指示词的说明:
B11、事件专有名词
事件专有名词是一类特殊的名词,在语句中表示了某个事件的发生;
B12、实意动词
实意动词即一般动词,用来表示动作或行为本身,具备动词的主要语法特征,是典型的动词;
B13抽象动词
抽象动词即实意动词之外其它类型的动词;
B14依存关系为ATT起修饰作用的动词
依存关系为定中关系ATT的动词表示该动词在句子中做修饰成分,不作为事件指示词来考虑;同样几个动词为并列关系COO其中一个动词的依存关系为ATT,表示这几个动词同为修饰成分;
B2、确定各事件指示词的事件角色:通过分析找到对应每个事件指示词的事件角色即施事者、受事者、环境、时间、工具,并把一个句子中充当多个事件指示词的不同或相同事件要素部分找出来;
B21、事件角色施事者
施事者即动作的主体,表示施加动作的人或物;
B22、事件角色受事者
受事者即动作的客体,表示受动作支配的人或物;
B23、事件角色环境
环境即描述动作发生的地点、位置等信息;
B24、事件角色时间
时间即描述动作发生的时间,可以是绝对时间、相对时间或时间区间;
B25、事件角色工具
工具即动作所采用的工具;
B26、多身份事件角色
多身份事件角色即句子中的某一部分内容同时充当不同事件指示词所对应的事件角色;
B3、确定修饰事件指示词与事件角色的修饰成分:通过语义分析与依存关系分析找出具有修饰含义的部分,通常情况下主要考察依存关系为定中关系ATT、数量关系QUN、语态结构MT、“的”字结构DE、“地”字结构DI、状中结构ADV的词语,并且再次确定修饰成分中是否包括已分析过的事件角色,如果包括,则该修饰成分为多角色部分;
B4、确定其它句子成分:通过以上分析后句子中剩余的成分有介词、连词、习语、感叹词、拟声词、词素、非词汇单位和标点符号;除介词与连词外其它成分暂不做处理;对介词和连词的功能分析即对其进行分类;介词分为表示时间、处所、方向、方式、方法、依据、工具、比较、原因、目的、施事、受事、关涉对象和其它共14种类型;连词分为并列、承接、转折、因果、选择、假设、比较、让步、递进、条件、目的和其它共12中连词。
4.根据权利要求1所述的基于事件结构的中文语句分析方法,其特征在于,所述步骤C中所述的添加标签与功能说明,所有标记的标记格式均采用XML语言,其具体实施步骤如下:
C1、标记多角色句子成分:根据步骤B的分析结果,首先将多角色句子成分标记出来,其标签为“MC”,然后添加多角色句子成分编号“mcID”,其中ID为一个自然数;
C2、标记事件角色成分:根据步骤B的分析结果,逐一标记多角色成分中的各事件角色成分和编号,然后标记其它事件角色和编号;如句子中不存在多角色成分则直接标记各事件角色成分和编号;
事件指示词的编号“eID”中的ID号由事件指示词的类型和在依存关系树中的深度来确定,其优先级规则是:事件专有名词>动词1即依存树1层>动词2即依存树2层…>动词n即依存书叶子节点,如果几个动词同在一层则按照从左到右的顺序排列;除事件指示词外,其它事件角色的编号由其所对应的事件指示词的编号来确定,除了标记事件角色的标签和编号外,还要标记一些功能说明,具体标记内容说明如下:
C21、<subject(施事者标签) sid(编号)=sID t_subject(类型)=creature(人或生物)|things(物)|organization(组织机构)|phrase(短语)|clause(短句)| event(事件)> </subject>(结束标志)
C22、<object(受事者标签) oid(编号)=oID t_object(类型)=creature(人或生物)|things(物)|organization(组织机构)| phrase(短语)|clause(短句)| event(事件) > </object>(结束标志)
C23、<denote(事件指示词标签) eid(编号)=eID t_denote(类型)=event_v(实意动词)|sense_v(抽象动词)|event_n(事件专有名词) tendency(动词类型倾向)= VX(判断动词)|VM(心理动词) |VD(趋向动词)|VO(能愿动词)|VF(使令动词)|VV(表白动词)|VA(行止动词)|VM(比你比拟动词)|VE(一般动词)| proprietary (事件专有词) performance(动作完成情况)=happen(已经发生)|unhappen(未发生)|happing(正在发生) wordtime(动作事件)=bygone(过去)|now(现在)|future将来> </denote>(结束标志)
C24、<time(时间标签) tid(编号)=tID t_time(类型)=absTime(绝对时间)|relTime(相对时间)|timeInterval(时间区间)> </time>(结束标志)
C25、<locotr(环境标签) lid(编号)=lID t_loctor(类型)=origin(出发地)|destination(目的地)|place(环境地点)> </loctor>(结束标志)
C26、<tool(工具标签) toid(编号)=tID t_tool(工具类型)= creature(人或生物)|thing(物)|event(事件)> </tool>(结束标志)
C3、标记非事件角色成分:根据步骤B的分析结果,标记整个句子中的非事件角色成分的标签和功能说明,具体标记内容说明如下:
C31、<modifier(修饰成分标签) m_element(修饰的成分)=eID(事件指示词编号)|sID(施事者编号)|oID(受事着编号)|tID(事件编号)|lID(环境编号)|toID(工具编号)|mcID(多角色成分编号) t_modifier(修饰成分类型)=adjective(形容词)|adverb(副词)|phrase(短语)|clause(短句)|noun(名词)|verb(动词)|proprietary(专有事件)| auxiliary(助词) |others(其它) m_appraise(修饰评价方向)=commendatory(褒)|pejorative(贬)|neutral(中性)|bygone(过去)|now(现在)|future(将来)|degree(程度)|quality(质量)|quantity(数量)|time(时间)|speed(速度)|affiliation(隶属)| tense(时态) |negative(否定)| frequentness(频率)|post(职务)|pattern(方式)|method(方法)…… > </modifier>(结束标志)
C32、<conjuction(连词标签) cid(编号)=cID s_conjunction(连词序)=beg(起始连词)|mid(中间连词)|end(结尾连词)| single(单一连词) t_conjunction(类型) =coordinating(并列关系)|continue(承接关系)|transition(转折关系)|karma(因果关系)|select(选择关系)|suppose(假设关系)|compare(比较关系)|concession(让步关系)|progressive(递进关系)|conditional(条件关系)|purpose(目的关系)></conjuction>(结束标志)
C33、<preposition (介词标签)t_prepositon(介词类型)=time_p(时间介词)|loctor_p(处所介词)|pattern_p(方式介词)|method_p(方法介词)|accord_p(依据介词)|tool_p(工具介词)|compare_p(比较介词)|reason_p(原因介词)| objective_p(目的介词)|subject_p(施事介词)|object_p(受事介词)|involve_p(关涉对象介词)> </preposition>(结束标志)
C34、<others (其它成分标签)t_others(类型)=idiom(习惯用语)|exelamation(感叹词)|onomatopoetic(拟声词)|morpheme(语素)|non-lexeme(非词汇单位)|prefix(前缀)|suffix(后缀)|DE(“的”结构)|DI(“地”结构)|…> </others>(结束标志)
C4、基于事件结构的语句分析树的形式化表示:通过C1、C2、C3步骤的处理,整个句子以分析事件的角度将各事件角色和非事件角色成分以树形结构进行描述,最后通过括号表示法将基于事件结构的语句分析树表示出来。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学;国际竹藤中心,未经上海大学;国际竹藤中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210439007.4/1.html,转载请声明来源钻瓜专利网。