[发明专利]一种新闻文本分类方法、装置及服务器在审
申请号: | 201810116106.6 | 申请日: | 2018-02-06 |
公开(公告)号: | CN108334610A | 公开(公告)日: | 2018-07-27 |
发明(设计)人: | 任宁;晋耀红 | 申请(专利权)人: | 北京神州泰岳软件股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京弘权知识产权代理事务所(普通合伙) 11363 | 代理人: | 逯长明;许伟群 |
地址: | 100089 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 新闻文本 分类词表 特征词 分类 分词 相关度 服务器 命中 分类过程 分类能力 内容变化 新闻语料 申请 创建 更新 积累 | ||
1.一种新闻文本分类方法,其特征在于,包括:
S110,根据已知新闻语料创建分类词表;所述分类词表设置有多个新闻类别,每个新闻类别中包含至少一个特征词;
S120,根据所述分类词表对新闻文本进行分类,获得新闻文本的命中类别;
S130,对新闻文本进行分词,并获取每个新闻文本的分词与所述命中类别的相关度;
S140,根据所述相关度,从新闻文本的分词中选拔所述特征词,并将选拔出的所述特征词添加到所述分类词表中;
S150,重复执行步骤S120-S140,直到所述分类词表对新闻文本分类的准确率满足预设终止条件为止。
2.根据权利要求1所述的方法,其特征在于,所述根据已知新闻语料创建分类词表;所述分类词表设置有多个新闻类别,每个新闻类别中包含至少一个特征词的步骤包括:
设置所述分类词表的新闻类别;
从已知新闻语料中获取所述特征词;
根据所述特征词所属已知新闻语料的新闻类别,将所述特征词添加到所述分类词表中。
3.根据权利要求2所述的方法,其特征在于,所述分类词表中还包含正则表达式,所述设置所述分类词表的新闻类别的步骤之后,还包括:
从已知新闻语料中获取特征句;
将所述特征句转化为正则表达式;
根据所述特征句来源的已知新闻语料的新闻类别,将正则表达式添加到所述分类词表中。
4.根据权利要求1所述的方法,其特征在于,所述根据所述分类词表对新闻文本进行分类,获得新闻文本的命中类别的步骤包括:
根据所述分类词表,获取新闻文本中包含的所有所述特征词;
根据新闻文本中每个新闻类别的特征词出现的频次,分别获取新闻文本与每个新闻类别的匹配度;
将所述匹配度的最高值对应的新闻类别作为命中类别。
5.根据权利要求4所述的方法,其特征在于,所述根据新闻文本中每个新闻类别的特征词出现的频次,分别获取新闻文本与每个新闻类别的匹配度的步骤包括:
解析新闻文本的新闻结构;所述新闻结构包括标题、导语、主体、结语和背景五个部分;
获取新闻文本各个部分的特征词权重;
根据每个新闻类别的所述特征词在新闻文本各个部分出现的频次和特征词权重,计算所述匹配度;
其中,计算所述匹配度使用以下公式:
P=p1×C1+p2×C2+…+pn×Cn
其中,P为新闻文本与某个新闻类别的所述匹配度,p1~pn为新闻文本各个部分的特征词权重,C1~Cn为某个新闻类别的所述特征词在新闻文本各个部分的数量。
6.根据权利要求1所述的方法,其特征在于,所述对新闻文本进行分词,并获取每个新闻文本的分词与所述命中类别的相关度的步骤包括:
根据预设的切词规则,对新闻文本进行切词处理,获取新闻文本的分词;
去除新闻文本的分词中包含的停用词;
计算新闻文本的每个分词相对于所述命中类别的TF-IDF值,将所述TF-IDF值作为所述相关度。
7.根据权利要求1所述的方法,其特征在于,所述根据相关度,从新闻文本的分词中选拔所述特征词,并将选拔出的所述特征词添加到所述分类词表中的步骤包括:
根据所述相关度,对新闻文本的分词进行排序;
根据分词排序的结果,选取所述相关度高于第一预设值的所述分词作为所述特征词;
将所述特征词添加到所述分类词表中。
8.根据权利要求5所述的方法,其特征在于,
所述特征词包括正向特征词和反向特征词;所述正向特征词的特征词权重为正值,所述反向特征词的特征词权重为负值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京神州泰岳软件股份有限公司,未经北京神州泰岳软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810116106.6/1.html,转载请声明来源钻瓜专利网。