[发明专利]一种基于部分监督学习的中文概括性文本切分方法有效
申请号: | 201711444997.X | 申请日: | 2017-12-27 |
公开(公告)号: | CN108009156B | 公开(公告)日: | 2020-05-19 |
发明(设计)人: | 王亚强;何思佑;唐聃;舒红平 | 申请(专利权)人: | 成都信息工程大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06K9/62 |
代理公司: | 北京众合诚成知识产权代理有限公司 11246 | 代理人: | 夏艳 |
地址: | 610225 四川省成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于语言处理技术领域,公开了一种基于部分监督学习的中文概括性文本切分方法,将中文短文本分词任务看作二分类或者三分类问题,并根据短文本的主要特征提取具有较小噪声的前后文特征信息结合部分监督学习方法来进行分词。本发明通过五组外加一组“困难”数据集的对照实验,不难发现短文本分词的结果深受前后文信息长度的影响,其中二元前后文信息最能贴合短文本分词的特征,能够有效提高分词性能;二、三元混合特征更能表达出每个“空”的信息其性能最优秀,再多或者再少就会损失性能了;部分监督学习在短文本分词中的应用也能体现出其优秀的补齐参数能力,能够大大的减少人工标注的工作并且获得更加优秀的性能。 | ||
搜索关键词: | 一种 基于 部分 监督 学习 中文 概括性 文本 切分 方法 | ||
【主权项】:
1.一种基于部分监督学习的中文概括性文本切分方法,其特征在于,所述基于部分监督学习的中文概括性文本切分方法根据短文本的主要特征提取具有较小噪声的前后文特征信息结合部分监督学习方法进行分词;所述短文本的特征包括:二元前后文信息,用于贴合短文本分词;三元混合前后文,用于表达出每个空的信息;所述部分监督学习用于在短文本分词中补齐参数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都信息工程大学,未经成都信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711444997.X/,转载请声明来源钻瓜专利网。
- 上一篇:新型模筑混凝土内置振捣装置
- 下一篇:一种光伏发电多功能户外宣传栏