[发明专利]一种基于部分监督学习的中文概括性文本切分方法有效

申请号：	201711444997.X	申请日：	2017-12-27
公开（公告）号：	CN108009156B	公开（公告）日：	2020-05-19
发明（设计）人：	王亚强;何思佑;唐聃;舒红平	申请（专利权）人：	成都信息工程大学
主分类号：	G06F40/289	分类号：	G06F40/289;G06K9/62
代理公司：	北京众合诚成知识产权代理有限公司 11246	代理人：	夏艳
地址：	610225 四川省成都***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于部分监督学习中文概括性文本切分方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于部分监督学习的中文概括性文本切分方法，其特征在于，所述基于部分监督学习的中文概括性文本切分方法根据短文本的主要特征提取具有较小噪声的前后文特征信息结合部分监督学习方法进行分词；所述短文本的特征包括：二元前后文信息，用于贴合短文本分词；三元混合前后文，用于表达出每个空的信息；所述部分监督学习用于在短文本分词中补齐参数；

第一步，进行特征选择，窗口大小设置为1到3，添加*和作为开始与结束符；提取“自然”之间“空”的窗口大小为一的前文，“空”用它的一元窗口前后文表示，相对应文本分类中的特征“单词”来说，每一元前后文都看做一个“单词”，并且假设它的前后文之间条件独立，应用朴素贝叶斯进行似然估计；

第二步，通过人工标注好的少量“分词”类别数据集P和一个未标注的大量混合数据集M，其中M中包含了“分词”和“不分词”两个类别的所有数据，训练一个初始分类器，使用初始分类器与混合数据集M进行EM算法迭代过程；

第三步，构建初始分类器：将nonseg数据进一步区分seg和non-seg类别数据集，其中seg表示“分词”类别数据集，non-seg表示“不分词”类别数据集；将部分监督学习中的SEM过程直接应用在分词上面进行分词；

其中，在所述第一步中的进行特征选择包括：一个“空”的前后文特征有长有短，即：窗口大小不一；窗口大小设置为1到3，为使提取的前后文长度相同添加*和作为开始与结束符：“***自然语言处理”；提取“自然”之间“空”的窗口大小为一的前文表示为o_p1_自，大小为二的后文表示为o_n2_然语，这个“空”用它的一元窗口前后文表示为o_p1_自_n1_然_p2_*自_n2_然语，三元前后文也做类似的表示；

所述朴素贝叶斯的分类方法包括：一个Blank集合B＝{b₁，...，b_l}，每个“空”拥有前后文特征信息用f_n表示，f_n来自于训练集中提取的所有特征集合F＝{f₁，f₂，...，f_n}，对于二分类定义一个类别集合C＝{c₁，c₂}，其中c₁表示“分词”类别，相对应c₂表示“不分词”类别；为获得某个“空”的分类结果需计算后验概率，根据贝叶斯定理有

根据条件独立假设式(1)变形为：

选择拉普拉斯平滑公式变形为：

其中表示特征f在“空”b中出现的次数除以类别c中特征的总次数；分母中的|V|表示特征的总数量；

所述第二步中还包括IEM过程，得到一个已标注好的少量“分词”类别数据集P和一个未标注的大量混合数据集M，M中包含了“分词”和“不分词”两个类别的所有数据；将P中所有数据赋予c₁类别并且在后续的迭代过程中P中数据标签不改变；然后将M数据集中所有“空”赋予c₂类别，此数据的类别将在迭代过程中不断改变；然后利用朴素贝叶斯训练一个初始的分类器inital-classifier，使用这个分类器对M数据集中数据进行分类将结果为c₁的数据加入seg中，反之将c₂结果加入non-seg中；EM算法迭代使用朴素贝叶斯算法通过Ｐ，seg，non-seg数据集重新建立一个新的分类器再对seg和non-seg进行分类直至收敛得到最终分类器；

其中，EM算法包括：首先将P中所有数据赋予c₁类别并且在后来的迭代过程中P中数据标签永不改变；然后将M数据集中所有“空”赋予c₁类别，此数据的类别将在迭代过程中不断改变；然后利用朴素贝叶斯训练一个初始的分类器initial-classifier，使用这个分类器对M数据集中数据进行分类将结果为c₁的数据加入“分词”类别数据集seg中去，反之将c₂结果加入“不分词”类别数据集non-seg中；接下来进入EM算法迭代过程，使用朴素贝叶斯算法通过P，seg，non-seg数据集重新建立一个新的分类器再对seg和non-seg进行分类直至收敛得到最终分类器；

其中部分监督学习方法包括：每两个字之间的空格都看作是一个单独的文档，将所有文档提前定义为两类：“分词”与“不分词”；

通过部分监督学习方法，只标注一小部分的“分词”类别数据然后通过朴素贝叶斯方法进行似然估计和EM算法相结合不断迭代，直至最后训练出一个期望的分类器。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于成都信息工程大学，未经成都信息工程大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201711444997.X/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于部分监督学习的中文概括性文本切分方法有效

专利文献下载