[发明专利]一种基于平均感知器算法的词性标注方法在审
申请号: | 201810561207.4 | 申请日: | 2018-06-04 |
公开(公告)号: | CN109062887A | 公开(公告)日: | 2018-12-21 |
发明(设计)人: | 邵玉斌;郭海震;龙华;杜庆治 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词性 词性标注 感知器 训练集 算法 句子 标注 自然语言处理技术 预处理 嵌套 单词词性 单词信息 模型文件 数据结构 对设备 语料库 字节流 末尾 准确率 比对 字典 保存 返回 概率 更新 | ||
本发明涉及一种基于平均感知器算法的词性标注方法,属于自然语言处理技术领域。本发明首先针对训练集进行训练:提取训练集中单词信息,比如当前词的原形,末尾两个字母,前一个词的词性等特征,并根据语料库更新每个特征中各个词性可能的概率,最后用嵌套字典的数据结构并以字节流的方式保存在本地;其次,对句子中单词词性标注阶段:对要标注的句子进行预处理,然后获取词的特征,通过跟模型文件的比对,返回一个可能性最大的词性。本发明能够用较少的训练集达到较高的准确率,并且对设备要求也不高,训练时间也不长。
技术领域
本发明涉及一种基于平均感知器算法的词性标注方法,属于自然语言处理技术领域。
背景技术
词性标注是自然语言处理的基础性课题,是很多其他自然语言处理任务的基础,同时在很大程度上影响着后续任务的最终性能。构建一个高性能、高效率的词性标注系统具有重要的学术意义和应用价值。
感知器是二类分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,取+1和-1二值。感知器对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面,属于判别模型。感知器学习旨在求出将训练进行线性划分的分离超平面,为此,导入基于误分类的损失函数,利用梯度下降法对损失函数进行极小化,求得感知器模型。感知器学习算法具有简单而易于实现的有点,分为原始形式和对偶形式。感知器预测是用学习得到的感知器模型对新的输入实例进行分类。
发明内容
本发明要解决的技术问题是提出一种基于平均感知器算法的词性标注方法,用以解决上述问题。
本发明的技术方案是:一种基于平均感知器算法的词性标注方法。训练阶段:首先,对语料库进行预处理;然后,从语料库中读取训练数据;接着,从语料库中提取特征;然后,训练特征模板中权重的值;最后,计算平均权重。测试阶段:首先,对语料库进行预处理;然后,提取要标注的句子中词的特征,跟训练阶段得到的模型对比,得出该词最可能的词性。
具体步骤为:
(1)从语料库中读取训练数据:从语料库中读取单词,当读取到“句号”时,代表是一个句子的结尾,将前面的若干单词组成为一句话,,将每句话存储在sentence变量中,然后将sentence加到train_data列表中作为训练集;
(2)从train_data中读取一句话,其中:单词为words列表,词性为tags列表;
(3)对步骤(2)获得的单词进行预处理;
(4)对于步骤(3)words列表前后加上特殊字符,防止处理第一个或最后一个单词时报错;
(5)对步骤(3)获得的words列表中的单词进行词性标注,依次进行如下操作:在高频字典中查找该词对应词性,如果有,则该词词性确定;如果没有,则提取该词特征;
(6)用步骤(4)提取的单词特征预测单词词性,并根据预测结果更新权重;
(7)判断train_data是否处理完,如果没处理完,则循环步骤(2)至步骤(6),如果处理完,则进行下一步;
(8)平均权重,并将每个特征对应的各个词性及权重用嵌套字典的数据结构存储并以字节流的方式保存在本地;
(9)对输入的句子进行词性标注,将要处理的句子中的单词按顺序存储于列表words中;
(10)对步骤(9)中words列表进行预处理;
(11)对步骤(10)获得的words列表中的单词进行词性标注,依次进行如下操作:在高频字典中查找该词对应词性,如果有,则该词词性确定;如果没有,则提取该词特征;
(12)用步骤(11)提取的单词特征预测单词词性,并保存于tokens列表中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810561207.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种排版设计平台管理系统
- 下一篇:一种出现错误文本输入时的自纠正方法