[发明专利]一种基于汉语简单名词短语的汉语最长名词短语识别方法有效
申请号: | 201610317795.8 | 申请日: | 2016-05-12 |
公开(公告)号: | CN106021225B | 公开(公告)日: | 2018-12-21 |
发明(设计)人: | 黄德根;田雪 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/62 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 温福雪;李宝元 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于人工智能的自然语言处理子领域,提供了一种基于汉语简单名词短语的汉语最长名词短语识别方法。包括如下步骤:S1数据预处理;S2选用SVM方法,训练汉语SNP识别模型,识别出汉语SNP;S3使用缩略替换方法简化文本,得到新的训练及测试语料;S4在经S3处理得到的新语料中,再次提取样本集,针对简化后的汉语MNP进行模型训练、识别;S5还原语料,还原后的汉语MNP为本方法最终识别结果。本发明的汉语MNP识别方法可以降低汉语MNP在自动识别中因其长度过长、语义及结构复杂等因素带来的不利影响,因此能有效提高汉语MNP的识别效果。 | ||
搜索关键词: | 一种 基于 汉语 简单 名词 短语 最长 识别 方法 | ||
【主权项】:
1.一种基于汉语简单名词短语的汉语最长名词短语识别方法,其特征在于,步骤如下:步骤1、确定语料并进行预处理步骤(a):使用中文词法分析工具对训练语料及测试语料进行分词和词性标注;步骤(b):对步骤(a)得到的每个词分别分配汉语SNP和汉语MNP的分类标签,每个词都有两个分类标签;步骤2、建立基于SVM的汉语SNP识别模型步骤a):对步骤b)得到的语料中的每个词提取样本,对当前词及其左右各3词共7词的词和词性进行数字化,构成特征向量x,当前词的汉语SNP分类标签设为y,则将得到样本集(xi,yi),i=1,2,…n,n为样本数;步骤b):训练识别模型,使用SVM训练识别模型就是对样本集(xi,yi)求几何间隔最大平面的过程,其中x为特征向量,y为分类标签;设所求分类超平面表示为:wTx+b=0其中,w和b都是向量;所求超平面应满足以下约束,且最满足大分类间隔为
yi[wTx+b]≥1,i=1,2…n约束最优化问题由拉格朗日函数的鞍点给出,引入拉格朗日算子ai,其中,ai>0,则构造函数表示为:
且鞍点处满足:![]()
最终,最优分类函数即为所训练的模型,表示为:
其中,xi为支持向量,yi是第i个样本的分类标签,
为其对应拉格朗日乘子,b*为常数;步骤c):用步骤b)中得到的识别模型对测试语料进行分类,识别出汉语SNP;步骤3:用汉语SNP简化文本:对训练语料及测试语料中识别出的汉语SNP使用缩略替换方法简化,降低文本中汉语MNP的复杂度和长度,构成新的训练语料和测试语料;所述的缩略替换方法如下:(1)对于被识别为汉语SNP的词串,将其作一个整体处理:首词对应的汉语MNP的分类作为整体的汉语MNP分类;尾词作为整体的语义核心;尾词词性作为整体的词性;词语个数作为整体的长度信息;(2)对于步骤(1)以外的词,语义核心为其本身,汉语SNP长度信息记作0,保持其原有的汉语MNP分类标签;步骤4:针对步骤3得到的语料进行汉语MNP训练和识别步骤1):针对步骤3得到语料,对每个词提取样本,将当前词及其左右各5词共11词的语义核心、词性、汉语SNP长度信息数字化,构成特征向量x′,当前词的汉语MNP分类标签设为y′,则将得到样本集(x′i,y′i),i=1,2,…n,n为样本数;步骤2):使用步骤1)中提取得到的样本进行模型训练,具体方法与步骤2中步骤b)相同;步骤3):使用步骤2)中训练得到的模型在步骤3得到的测试语料上识别汉语MNP;步骤5:结合步骤1得到的语料,对步骤4的识别结果进行填充、还原,还原后的汉语MNP为本方法最终识别结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610317795.8/,转载请声明来源钻瓜专利网。