[发明专利]一种高精度汉语谓词识别方法有效
申请号: | 201310080760.3 | 申请日: | 2013-03-14 |
公开(公告)号: | CN103150381A | 公开(公告)日: | 2013-06-12 |
发明(设计)人: | 罗森林;白建敏;潘丽敏;韩磊;魏超 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/28 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于规则和统计相结合的谓词识别方法,属于自然语言处理与机器学习领域,目的是为解决谓词高精度高效率识别问题。本发明采用分步识别方法,从已进行词法和句法标注的句子中识别谓词,首先对待测句子进行词法分析,得到可疑谓词及其个数;接着利用初步识别判定条件进行谓词初步识别;对不满足初步识别判定条件的可疑谓词提取相关词法和句法特征并利用C4.5训练得到的决策树判定模型对其进行判定;最终汇总两步识别结果给出每个待测句子中的谓词。本发明具有准确率高、识别速度快、对非动词性谓词识别率高等特点,适用于要求高精度的汉语谓词识别领域,对句义分析的发展具有很大的推动作用,具有很好的应用价值和推广价值。 | ||
搜索关键词: | 一种 高精度 汉语 谓词 识别 方法 | ||
【主权项】:
高精度汉语谓词识别方法,其特征在于:采用分步识别的方法,首先对待测句子进行词法分析,得到可疑谓词及其个数;接着利用可疑谓词个数是否为1等判定条件进行初步谓词识别;其次对不满足初步识别判定条件的可疑谓词,提取相关词法和句法特征并利用C4.5算法训练得到的决策树判定模型对其进行谓词识别;最终汇总两步识别结果给出每个待测句子中的谓词。本发明不仅能够进一步提升谓词识别准确率,还可以有效减少训练和识别的时间开销,并且对非动词作谓词的情况也能有效识别。包括如下步骤:步骤1,对已进行词法和句法标注的句子中的词进行词性分析,统计出每个句子中的可疑谓词及其个数。由于在汉语中,具有某些词性的词,如介词、助词、代词等,它们无法充当谓词或者只在极少的情况下充当谓词。因此,为了提高算法效率,并且不影响识别效果,首先对句子中的每个词进行词性分析,不可能作为谓词的词,则不对其进行特征提取及识别。仅对可能成为谓词的词(可疑谓词)进行下一步处理。所述的句子在训练过程中指的是训练句子,在识别过程中指的是待测句子。步骤2,在步骤1的基础上,对标注语料进行特征提取和训练最终得到决策树判定模型,该步骤分为特征提取和C4.5算法训练决策树两个步骤。所述的标注语料指的是具有谓词标记的语料,具体过程如下:步骤2.1,训练阶段的特征提取输入的是经过词法、句法标注的训练句子以及步骤1得到的可疑谓词及其个数,用人工形式总结归纳出相关的初始词法、句法特征,再通过特征筛选实验得到训练句子的最终词法、句法特征及谓词标记。所述的特征筛选实验的目的是将无用的特征或作用较小的特征去除,最终选出最优的特征组合(或特征子集),特征子集选择问题,就是找到原始特征集合的一个简洁子集,使得机器学习算法在仅包含这个子集中特征的数据集合上运行后,产生一个尽可能高精确度的分类器。因此,特征子集选择的关键是找到一个简洁且优良的特征子集。具体步骤如下:步骤2.1.1,去除单个特征,记录识别结果,并按照识别效果从高到低排序。步骤2.1.2,识别效果越好说明去除的特征对于特征组合的贡献越小,所以按照步2.1.1的排序结果,根据识别效果从高到低依次去除特征,利用剩下特征进行测试。步骤2.2,C4.5算法训练决策树过程是将步骤2.1得到的词法、句法特征以及谓词标记,输入到C4.5算法进行训练,最终得到谓词决策树判定模型。步骤2.2.1,所述的C4.5算法是一种重要的机器学习算法,是ID3算法的一种改进算法,其优点是:产生的分类规则易于理解,准确率较高。缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。具体的算法流程如下:1.创建节点N,如果训练集为空,在返回节点N标记为失败,如果训练集中的所有记录都属于同一个类别,则以该类别标记节点N;2.如果候选属性为空,则返回N作为叶节点,标记为训练集中最普通的类;3.对每一个候选属性如果是联系的就对该属性进行离散化;4.选择候选属性中具有最高信息增益的属性D,标记节点N为属性D,对每一个属性D的一致值d,由节点N长出一个条件为D=d的分支;5.设s是训练集中D=d的训练样本的集合,如果s为空,则加上一个树叶,标记为训练集中最普通的类,否则加上一个有C4.5(R‑{D},C,s)返回的点。步骤2.2.2,本发明采用的是C4.5算法训练决策树,需要针对C4.5算法进行参数选取。对于C4.5算法,需要调整的参数主要有裁剪比例confidenceFactor和最小分支支撑事例数minNumObj。参数选择实验具体方法是:将裁剪比例和最小分支支撑事例数分别按一定大小步长取值,根据相应的取值得到谓词识别准确率、召回率和F值,最好的识别结果所对应的参数即为最终的参数。步骤3,训练过程结束后是识别过程,包括初步识别、特征提取和谓词判定三个步骤,具体步骤为:步骤3.1,初步识别过程输入的是步骤1得到的可疑谓词及其个数以及经过词法、句法标注的待测句子,利用相关的判定条件对可疑谓词进行初步识别,符合判定条件的直接给出识别结果,不符合判定条件的则进行下一步特征提取操作。该步骤使用了基于规则的方法进行谓词的初步识别。所述的判定条件是:(1)可疑谓词的个数如果为1,则该可疑谓词为谓词。该判定条件基于一个约定:任何完整的句子必定含有至少一个谓词。(2)可疑谓词为动词“是”且处于“是……的”结构中,则判断该可疑谓词为非谓词。(3)可疑谓词为“掉、完、完毕”且紧跟在一个动词之后,则判断其为非谓词。(4)可疑谓词为“来说、说、来讲、讲、而言”且处在介词“对”“就”“从”之后构成介词性短语,则判断其为非谓词。步骤3.2,识别过程的特征提取输入的是经过词法和句法标注的待测句子以及不符合初步识别判定条件的句子,输出的是相应可疑谓词的词法、句法特征。步骤3.3,谓词判定过程输入的是特征提取步骤3.2得到的特征和步骤2.2得到的决策树判定模型,输出的是可疑谓词的判定结果,即是否为谓词。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310080760.3/,转载请声明来源钻瓜专利网。