[发明专利]一种分类语料确定方法和设备有效

申请号：	201210056669.3	申请日：	2012-03-06
公开（公告）号：	CN103309857B	公开（公告）日：	2018-11-09
发明（设计）人：	贺翔;亓超;毛少林;翟俊杰	申请（专利权）人：	深圳市世纪光速信息技术有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京华沛德权律师事务所 11302	代理人：	刘杰
地址：	518057 广东省深圳市***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种分类语料确定方法设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种分类语料确定方法和设备，该方法包括：从数据库中获取预设数量的输入样本，组成输入样本集；其中，所述输入样本包含词条的词条名、分类信息以及相关词条信息；根据预设的种子词从所述输入样本集中获取特征样本，组成特征样本集；根据所述特征样本集确定分类特征词；根据所述分类特征词以及待选文本确定分类语料及其类别。在本发明中，提高了分类语料获取的效率和准确率。

技术领域

本发明涉及互联网技术应用领域，尤其涉及一种分类语料确定方法和设备。

背景技术

文本自动分类是指用计算机程序对文本集(或其他数据)按照一定的分类体系或标准进行自动分类标记。

为了使计算机程序能对文本集进行自动分类标记，需要使用大量分类语料对其进行训练；其中，该分类语料是指大量具有类别标注信息的文本集合，上述计算机程序(如分类器)通过语料学习(训练)标注规则。

现有技术中，获取分类语料的途径主要包括以下两种方式：

(1)人工标注，即人工对大量的文本进行分类标注；

(2)定向抓取，即通过自动爬虫等方式从互联网上已经分好类的数据中抓取；如，当需要影视类分类语料时，可以在互联网上的影视类网站数据库中抓取。

发明人在实现本发明的过程中，发现现有技术至少存在以下缺陷：

人工标注的方式需要花费大量的人力和时间，效率较低；定向抓取则无法保证分类语料的准确率，即无法保证从影视类网站数据库中获取到的文本集均为影视类的语料。

发明内容

本发明提供一种分类语料的确认方法和设备，以提高分类语料获取的效率和准确率。