[发明专利]一种基于部分监督学习的中文概括性文本切分方法有效

专利信息
申请号: 201711444997.X 申请日: 2017-12-27
公开(公告)号: CN108009156B 公开(公告)日: 2020-05-19
发明(设计)人: 王亚强;何思佑;唐聃;舒红平 申请(专利权)人: 成都信息工程大学
主分类号: G06F40/289 分类号: G06F40/289;G06K9/62
代理公司: 北京众合诚成知识产权代理有限公司 11246 代理人: 夏艳
地址: 610225 四川省成都*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 部分 监督 学习 中文 概括性 文本 切分 方法
【说明书】:

发明属于语言处理技术领域,公开了一种基于部分监督学习的中文概括性文本切分方法,将中文短文本分词任务看作二分类或者三分类问题,并根据短文本的主要特征提取具有较小噪声的前后文特征信息结合部分监督学习方法来进行分词。本发明通过五组外加一组“困难”数据集的对照实验,不难发现短文本分词的结果深受前后文信息长度的影响,其中二元前后文信息最能贴合短文本分词的特征,能够有效提高分词性能;二、三元混合特征更能表达出每个“空”的信息其性能最优秀,再多或者再少就会损失性能了;部分监督学习在短文本分词中的应用也能体现出其优秀的补齐参数能力,能够大大的减少人工标注的工作并且获得更加优秀的性能。

技术领域

本发明属于语言处理技术领域,尤其涉及一种基于部分监督学习的中文概括性文本切分方法。

背景技术

在自然语言处理任务中,最基础的任务是将一段文本包含最基础语义的块切分出来。而单词恰恰最能符合本发明这一任务的要求,在类似英语这一类单词间自带分隔符的语言本发明可以通过空格将单词很容易的分割提取出来,但是在中文这种不带分隔符的语言中本发明就需要单独进行一项分词任务。目前比较传统的常规做法有两种,其一是基于匹配的方法,即:利用人工构建的词典进行逐字比对的方法进行校验当前比对对象是否成词,当发现当前长度对象已是能够成词的最大长度时,停止比对,将这个对象划分出来后继续下一轮匹配。根据匹配的方向不同又分为前向和后向最大匹配法,其本质方法都是相同的。和这种方法相似的是一种全切分路径选择方法,同样要依靠人工构建的词典,通过词典匹配找出所有可能的切分路径最后通过权值找出一条最优路径。以上介绍的方法最大的缺陷在于对词典的依赖非常严重,也就是说必须需要大量的人工对词典进行不断的更新,并且由于词典的分词粒度不同,对特殊文体的分词效果(例如概括性文本)还深受影响。基于统计的方法,随着计算机计算能力的提升基于统计的方法有了较好的发展例如将每个字进行标注:{B,I,E,S}分别表示词头、词中、词尾、单字词。然后采用隐马尔可夫或条件随机场训练模型,通过训练好的模型对未标注的新句子进行分词。以上统计方法最大缺陷同样是依赖一个大型的语料库,语料库的构建也是由人工手动完成,是十分耗时耗力的工作。

综上所述,现有技术存在的问题:依赖大规模的人工数据集,需要大量的人力和时间的耗费;词语认同率低;不能精确的将文本切分成粒度大小合适的单词。

发明内容

针对现有技术存在的问题,本发明提供了一种基于部分监督学习的中文概括性文本切分方法,在切分效果相同的情况下较传统方法可以节省10%~50%的人工标注数据。

本发明是这样实现的,一种基于部分监督学习的中文概括性文本切分方法,所述基于部分监督学习的中文概括性文本切分方法根据短文本的主要特征提取具有较小噪声的前后文特征信息结合部分监督学习方法进行分词;

所述短文本的特征包括:二元前后文信息,用于贴合短文本分词;

三元混合前后文,用于表达出每个空的信息;

所述部分监督学习用于在短文本分词中补齐参数。

进一步,所述基于部分监督学习的中文概括性文本切分方法具体包括:

步骤一,进行特征选择,窗口大小设置为1到3,添加*和作为开始与结束符:“***自然语言处理”;提取“自然”之间空的窗口大小为o_p1_自,大小为二的后文表示为o_n2_然语;

步骤二,得到一个已标注好的少量“分词”类别数据集P和一个未标注的大量混合数据集M,M中包含了“分词”和“不分词”两个类别的所有数据;并引入部分监督学习。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都信息工程大学,未经成都信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711444997.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top