[发明专利]文章分类方法和装置有效
申请号: | 201510940872.0 | 申请日: | 2015-12-15 |
公开(公告)号: | CN106886512B | 公开(公告)日: | 2020-11-17 |
发明(设计)人: | 邱国钦 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F16/35 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 何平;邓云鹏 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文章 分类 方法 装置 | ||
本发明涉及一种文章分类方法和装置,所述方法包括:获取预设的地域关键词序列;所述地域关键词序列包括地域相关的多个地域关键词;将待分类的文章进行分词处理,获得词集合;获取所述地域关键词序列中的各地域关键词相对于所述词集合的词频度;根据所述各个地域关键词的词频度获得所述文章与所述地域关键词序列的分类可信度;根据所述分类可信度获得所述文章是否属于所述地域关键词序列对应的地域类别的分类结果。本发明提供的文章分类方法和装置,计算复杂度低,消耗计算资源小,分类效率高,而且最终的分类结果更加准确。
技术领域
本发明涉及文字处理技术领域,特别是涉及一种文章分类方法和装置。
背景技术
文章是一种重要的信息载体,是人类思想的传播工具。文章包括各种文体的著作或者作品,如诗歌、戏剧、小说、科学论文,记叙文、议论文、说明文或者应用文。很多文章具有地域属性,比如文章内容涉及地域,或者文章作者来自于特定地域,或者文章标题涉及特定地域等等。将文章按照地域分类,可以方便用户按照地域划分来查找文章,从而高效地查找到与特定地域相关的文章。
目前对文章进行分类,一般采用三种分类方式:人工分类方式、按文章来源分类方式以及基于机器学习的文章自动分类方式。其中人工分类方式是最传统的一种文章分类方式,就是通过编辑人员阅读文章进行分类。这种分类方式分类精确,但是效率太低,在信息爆炸的当下,每天都会有大量文章涌现,人工分类方式无法满足文章分类需求。
按文章来源分类方式,就是按照文章的来源将文章归类到相应来源所在的地域类别,比如来源于某区域的报刊的所有文章均归类到该区域的分类。这种分类方式实现容易,但误判率太高;而且某些来源难以按照地域分类,比如来源于网络的文章,因此适用范围有限。
基于机器学习的文章自动分类方式,通过大量的人工标记的文章训练出分类特征模型,然后计算待分类的文章的特征向量,利用训练好的分类特征模型对文章进行分类。这种分类方式要达到较高的分类准确性,需要海量的训练样本进行训练,每个训练样本需要经过人工标记,一般难以获取到。而且这种分类方式所需的计算资源较大,通常需要依托分布式计算来实现。
因此,目前的文章分类方式或分类准确性低,或分类效率低,或消耗计算资源大,均难以满足文章分类需求。
发明内容
基于此,有必要针对目前的分类方式所存在的上述问题,提供一种准确性高、分类效率高并且消耗计算资源小的文章分类方法和装置。
一种文章分类方法,所述方法包括:
获取预设的地域关键词序列;所述地域关键词序列包括地域相关的多个地域关键词;
将待分类的文章进行分词处理,获得词集合;
获取所述地域关键词序列中的各地域关键词相对于所述词集合的词频度;
根据所述各个地域关键词的词频度获得所述文章与所述地域关键词序列的分类可信度;
根据所述分类可信度获得所述文章是否属于所述地域关键词序列对应的地域类别的分类结果。
一种文章分类装置,所述装置包括:
地域关键词序列获取模块,用于获取预设的地域关键词序列;所述地域关键词序列包括地域相关的多个地域关键词;
分词模块,用于将待分类的文章进行分词处理,获得词集合;
词频度获取模块,用于获取所述地域关键词序列中的各地域关键词相对于所述词集合的词频度;
分类可信度获取模块,用于根据所述各个地域关键词的词频度获得所述文章与所述地域关键词序列的分类可信度;
分类模块,用于根据所述分类可信度获得所述文章是否属于所述地域关键词序列对应的地域类别的分类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510940872.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种硅溶胶抛光液
- 下一篇:一种植物清香型防潮胶黏剂