[发明专利]一种基于汉语简单名词短语的汉语最长名词短语识别方法有效

专利信息
申请号: 201610317795.8 申请日: 2016-05-12
公开(公告)号: CN106021225B 公开(公告)日: 2018-12-21
发明(设计)人: 黄德根;田雪 申请(专利权)人: 大连理工大学
主分类号: G06F17/27 分类号: G06F17/27;G06K9/62
代理公司: 大连理工大学专利中心 21200 代理人: 温福雪;李宝元
地址: 116024 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明属于人工智能的自然语言处理子领域,提供了一种基于汉语简单名词短语的汉语最长名词短语识别方法。包括如下步骤:S1数据预处理;S2选用SVM方法,训练汉语SNP识别模型,识别出汉语SNP;S3使用缩略替换方法简化文本,得到新的训练及测试语料;S4在经S3处理得到的新语料中,再次提取样本集,针对简化后的汉语MNP进行模型训练、识别;S5还原语料,还原后的汉语MNP为本方法最终识别结果。本发明的汉语MNP识别方法可以降低汉语MNP在自动识别中因其长度过长、语义及结构复杂等因素带来的不利影响,因此能有效提高汉语MNP的识别效果。
搜索关键词: 一种 基于 汉语 简单 名词 短语 最长 识别 方法
【主权项】:
1.一种基于汉语简单名词短语的汉语最长名词短语识别方法,其特征在于,步骤如下:步骤1、确定语料并进行预处理步骤(a):使用中文词法分析工具对训练语料及测试语料进行分词和词性标注;步骤(b):对步骤(a)得到的每个词分别分配汉语SNP和汉语MNP的分类标签,每个词都有两个分类标签;步骤2、建立基于SVM的汉语SNP识别模型步骤a):对步骤b)得到的语料中的每个词提取样本,对当前词及其左右各3词共7词的词和词性进行数字化,构成特征向量x,当前词的汉语SNP分类标签设为y,则将得到样本集(xi,yi),i=1,2,…n,n为样本数;步骤b):训练识别模型,使用SVM训练识别模型就是对样本集(xi,yi)求几何间隔最大平面的过程,其中x为特征向量,y为分类标签;设所求分类超平面表示为:wTx+b=0其中,w和b都是向量;所求超平面应满足以下约束,且最满足大分类间隔为yi[wTx+b]≥1,i=1,2…n约束最优化问题由拉格朗日函数的鞍点给出,引入拉格朗日算子ai,其中,ai>0,则构造函数表示为:且鞍点处满足:最终,最优分类函数即为所训练的模型,表示为:其中,xi为支持向量,yi是第i个样本的分类标签,为其对应拉格朗日乘子,b*为常数;步骤c):用步骤b)中得到的识别模型对测试语料进行分类,识别出汉语SNP;步骤3:用汉语SNP简化文本:对训练语料及测试语料中识别出的汉语SNP使用缩略替换方法简化,降低文本中汉语MNP的复杂度和长度,构成新的训练语料和测试语料;所述的缩略替换方法如下:(1)对于被识别为汉语SNP的词串,将其作一个整体处理:首词对应的汉语MNP的分类作为整体的汉语MNP分类;尾词作为整体的语义核心;尾词词性作为整体的词性;词语个数作为整体的长度信息;(2)对于步骤(1)以外的词,语义核心为其本身,汉语SNP长度信息记作0,保持其原有的汉语MNP分类标签;步骤4:针对步骤3得到的语料进行汉语MNP训练和识别步骤1):针对步骤3得到语料,对每个词提取样本,将当前词及其左右各5词共11词的语义核心、词性、汉语SNP长度信息数字化,构成特征向量x′,当前词的汉语MNP分类标签设为y′,则将得到样本集(x′i,y′i),i=1,2,…n,n为样本数;步骤2):使用步骤1)中提取得到的样本进行模型训练,具体方法与步骤2中步骤b)相同;步骤3):使用步骤2)中训练得到的模型在步骤3得到的测试语料上识别汉语MNP;步骤5:结合步骤1得到的语料,对步骤4的识别结果进行填充、还原,还原后的汉语MNP为本方法最终识别结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610317795.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top