[发明专利]一种基于汉语简单名词短语的汉语最长名词短语识别方法有效

申请号：	201610317795.8	申请日：	2016-05-12
公开（公告）号：	CN106021225B	公开（公告）日：	2018-12-21
发明（设计）人：	黄德根;田雪	申请（专利权）人：	大连理工大学
主分类号：	G06F17/27	分类号：	G06F17/27;G06K9/62
代理公司：	大连理工大学专利中心 21200	代理人：	温福雪;李宝元
地址：	116024 辽***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明属于人工智能的自然语言处理子领域，提供了一种基于汉语简单名词短语的汉语最长名词短语识别方法。包括如下步骤：S1数据预处理；S2选用SVM方法，训练汉语SNP识别模型，识别出汉语SNP；S3使用缩略替换方法简化文本，得到新的训练及测试语料；S4在经S3处理得到的新语料中，再次提取样本集，针对简化后的汉语MNP进行模型训练、识别；S5还原语料，还原后的汉语MNP为本方法最终识别结果。本发明的汉语MNP识别方法可以降低汉语MNP在自动识别中因其长度过长、语义及结构复杂等因素带来的不利影响，因此能有效提高汉语MNP的识别效果。
搜索关键词：	一种基于汉语简单名词短语最长识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于汉语简单名词短语的汉语最长名词短语识别方法，其特征在于，步骤如下：步骤1、确定语料并进行预处理步骤(a)：使用中文词法分析工具对训练语料及测试语料进行分词和词性标注；步骤(b)：对步骤(a)得到的每个词分别分配汉语SNP和汉语MNP的分类标签，每个词都有两个分类标签；步骤2、建立基于SVM的汉语SNP识别模型步骤a)：对步骤b)得到的语料中的每个词提取样本，对当前词及其左右各3词共7词的词和词性进行数字化，构成特征向量x，当前词的汉语SNP分类标签设为y，则将得到样本集(xi,yi)，i＝1,2,…n，n为样本数；步骤b)：训练识别模型，使用SVM训练识别模型就是对样本集(xi,yi)求几何间隔最大平面的过程，其中x为特征向量，y为分类标签；设所求分类超平面表示为：wTx+b＝0其中，w和b都是向量；所求超平面应满足以下约束，且最满足大分类间隔为yi[wTx+b]≥1,i＝1,2…n约束最优化问题由拉格朗日函数的鞍点给出，引入拉格朗日算子ai，其中，ai＞0，则构造函数表示为：且鞍点处满足：最终，最优分类函数即为所训练的模型，表示为：其中，x_i为支持向量，y_i是第i个样本的分类标签，为其对应拉格朗日乘子，b^*为常数；步骤c)：用步骤b)中得到的识别模型对测试语料进行分类，识别出汉语SNP；步骤3：用汉语SNP简化文本：对训练语料及测试语料中识别出的汉语SNP使用缩略替换方法简化，降低文本中汉语MNP的复杂度和长度，构成新的训练语料和测试语料；所述的缩略替换方法如下：(1)对于被识别为汉语SNP的词串，将其作一个整体处理：首词对应的汉语MNP的分类作为整体的汉语MNP分类；尾词作为整体的语义核心；尾词词性作为整体的词性；词语个数作为整体的长度信息；(2)对于步骤(1)以外的词，语义核心为其本身，汉语SNP长度信息记作0，保持其原有的汉语MNP分类标签；步骤4：针对步骤3得到的语料进行汉语MNP训练和识别步骤1)：针对步骤3得到语料，对每个词提取样本，将当前词及其左右各5词共11词的语义核心、词性、汉语SNP长度信息数字化，构成特征向量x′，当前词的汉语MNP分类标签设为y′，则将得到样本集(x′i,y′i)，i＝1,2,…n，n为样本数；步骤2)：使用步骤1)中提取得到的样本进行模型训练，具体方法与步骤2中步骤b)相同；步骤3)：使用步骤2)中训练得到的模型在步骤3得到的测试语料上识别汉语MNP；步骤5：结合步骤1得到的语料，对步骤4的识别结果进行填充、还原，还原后的汉语MNP为本方法最终识别结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于大连理工大学，未经大连理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610317795.8/，转载请声明来源钻瓜专利网。

上一篇：基于文本语境信息层级量化的转喻加工实验方法及应用
下一篇：一种本体中概念双向语义相似度度量方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于汉语简单名词短语的汉语最长名词短语识别方法有效

专利文献下载