[发明专利]基于事件结构的中文语句分析方法无效
申请号: | 201210439007.4 | 申请日: | 2012-11-07 |
公开(公告)号: | CN103268311A | 公开(公告)日: | 2013-08-28 |
发明(设计)人: | 张旭洁;朱平;刘宗田;刘炜;王东;田垅 | 申请(专利权)人: | 上海大学;国际竹藤中心 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 上海上大专利事务所(普通合伙) 31205 | 代理人: | 何文欣 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 事件 结构 中文 语句 分析 方法 | ||
技术领域
本发明涉及一种基于事件结构的中文语句分析方法,属于自然语言处理(Natural Language Processing)领域。
背景技术
自然语言中大量存在对人类生活中各类事件的描述(小到一个动作,大到一个历史事件),同时也包括事件产生的时间、地点、参与的角色、状态以及事件之间的关系等内容与特征的描述。本发明的基于事件结构的中文语句分析方法即是从理解事件结构的角度对语句中的各成分进行分析和映射,并用形式化的方法进行表示。不同的语言有不同的表示方法和表示规律。人们可以通过认识事件以及事件之间的关系来认识和了解世界。这也是自然语言处理领域关于事件的研究所关注的重要内容之一。随着互联网相关技术的兴起,人们越来越多的依赖于网络来获取信息,而互联网的信息呈现出海量、剧增和冗余等特性,为了能更好的监控和运用其中的信息,让机器能够分析文本中的事件,面向事件的语句分析研究显得越来越重要。美国国防高级研究计划委员会(Defense Advanced Research Projects Agency,DARPA)主办的话题识别与跟踪(Topic Detection and Tracking,TDT)评测会议,其目的就是要发展一系列基于事件的信息组织技术。国家自然科学基金委员会将“非常规突发事件应急管理研究”列入2012年重大研究计划。
语句分析就是指对语句中的各成分功能和语义进行分析,将输入句子中单词之间的线性词序,变成一个非线性的数据结构。基于事件结构的语句分析就是指将语句中的各成分映射到所描述的事件结构或组成上。具体的说就是按照不同事件及事件角色进行分析,将一个中文句子表示为若干事件指示词和与之对应的事件角色包括非事件角色相关成分的树形结构。从理解事件的角度对一个句子进行基于事件结构的语句分析是近一步实现语义理解的必经之路。目前自然语言处理领域关于语句分析的主要理论包括:依存句法、乔姆斯基发展的形式语法理论即短语结构语法及其扩展,如:词汇功能语法、功能合一语法、广义短语结构语法、中心词驱动的短语结构语法。这些方法的思想都建立在英文的语法知识基础之上,没有从理解事件的角度将句子中的成分划分为事件与事件角色并分析它们之间的关系。目前对于事件的研究大多集中在从文本中识别和抽取事件以及事件角色提取、基于事件的自动文摘和文本自动生成等方面,这些研究都迫切需要本发明的基于事件结构的语句分析方法的支持。采用本发明构建的基于事件结构的中文语句分析的语料库不仅可以为机器学习与数据挖掘提供第一手的特征信息,还能用来进行数据统计,构建统计或概率模型,抽取语言规则,最重要的是它将为基于事件的信息处理技术提供比较和评测的标准。
目前已有的语句分析方法虽然从一定程度上反映了句子的语法结构,但还没有一种方法从分析事件的角度对句子中的成分进行分析,且存在以下不足:(1)以语法功能分析为中心,不全适用于中文的语句分析(中文是意合的语言);(2)以动词为中心不能覆盖句中的所有事件(如:事件名词“地震”、“火灾”等);(3)缺少对修饰成分、介词、连接词和其它成分的语义功能说明。
发明内容
鉴于以上所述现有技术存在的问题和不足,本发明提出了基于事件结构的中文语句分析方法,该方法在词法分析与依存语句分析的基础之上,从分析事件与事件角色的角度将语句中的成分再次划分为事件指示词、事件指示词对应的事件角色、修饰成分、介词、连接词和其它词语成分,通过标签设置,并添加各成分的语义功能说明,将句子结构由线性序转换为基于事件及其角色的树结构。
本发明的基于事件结构的中文语句分析方法是通过以下技术方案实现的,具体包括:
A、语句预处理步骤:采用词法与语法分析工具对语句进行分词、词性标注、依存句法分析的预处理;
B、基于事件的中文语句分析步骤:对预处理后的语句进行基于事件的中文语句分析;
C、添加标签与功能说明步骤:对分析后的语句添加标签和功能说明,标注对象包括事件指示词、事件角色和非事件角色三块主要成分。
上述步骤A所述的语句预处理,采用哈尔滨工业大学社会计算与信息检索研究中心提供的语言技术平台LTP对语句进行分词、词性标注(采用中国国家863评测用词性标记集)、依存句法分析处理。机器处理后的语句以词为单位标注有词号、词性、依存关系信息。
上述步骤B所述的基于事件结构的中文语句分析,对预处理后的语句进行基于事件结构的中文语句分析,包括:确定语句中的事件指示词、确定各事件指示词的事件要素、确定修饰事件指示词与事件角色的修饰成分、确定多身份句子成分、确定其它句子成分,具体步骤如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学;国际竹藤中心,未经上海大学;国际竹藤中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210439007.4/2.html,转载请声明来源钻瓜专利网。