[发明专利]文本分类方法及获得的文本分类器有效
申请号: | 201710216502.1 | 申请日: | 2017-04-05 |
公开(公告)号: | CN106951565B | 公开(公告)日: | 2018-04-27 |
发明(设计)人: | 贾宁;夏磊 | 申请(专利权)人: | 数库(上海)科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海领洋专利代理事务所(普通合伙)31292 | 代理人: | 刘秋兰 |
地址: | 201114 上海市闵行区陈*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 方法 获得 | ||
技术领域
本发明涉及人工智能的文本分类技术领域,具体涉及一种文本分类方法及获得的文本分类器。
背景技术
随着网络技术的快速发展,对于电子文本信息进行有效地组织和管理,并能快速、准确且全面地从中找到相关信息的要求越来越高。文本分类作为处理和组织大量文本数据的关键技术,在较大程度上解决了信息杂乱的问题,方便用户准确地获取所需的信息,是信息过滤、信息检索、搜索引擎及文本数据库等领域的技术基础。文本分类一般包括对文本的表达、文本分类器的选择及训练、文本分类结果的评价与反馈等过程。现有的文本分类技术通常按照以下步骤实施:(1)确定分类体系;(2)收集待标注语料,形成语料库;(3)用语料库训练分类模型;(4)用训练好的分类模型对新文本进行分类。
但是,对于以下几种应用场景,1)对于文本分类体系不均衡,有的类别范畴很大,有的类别范畴很小,如一个类别是“汽车行业”,而另一个类别是“锂电池”等的应用场景;2)对于易于获得大量的未标注语料,而获得标注语料的成本较高的应用场景;3)对于分类体系经常变化,经常新增类别或删除类别的应用场景,现有的文本分类技术存在有以下的缺陷:(1)在分类体系方面,现有技术都是采用固定的分类体系,即确定分类体系后不能随便改变。如若需要改变分类体系,需要重新收集语料,重新训练所有类别的分类模型,此过程需大量的时间和计算资源。(2)在语料库方面,现有技术需基于一定规模的标注好类别的文本作为训练语料,而对于标注好类别的文本,往往需要花费大量的人工先进行标注处理,从而增加了投入成本。
发明内容
本发明针对现有技术中文本分类技术的分类体系不能随意改变,如需改变分类体系需要耗费较多的时间和计算资源,且语料需人工进行标注,需要投入成本较高且耗时长的缺陷,目的在于提供一种可以灵活改变分类体系且自动进行标注文本的文本分类方法,大大地节省了计算资源、时间和成本。
实现上述目的的技术方案是:
本发明获得用于自动标注语料的文本分类器的方法,该方法包括:
概念确定步骤Ⅰ,确定概念集合,概念集合中的每个概念对应具有至少一个概念关键词的概念关键词集合;
语料自动标注步骤Ⅱ,利用概念集合中每个概念对应的概念关键词集合中的概念关键词对未标注语料文本集合进行匹配处理,并用相应的概念对未标注语料文本集合中的文本进行关联与自动标注处理,获得标注语料文本集合;
“标注语料文本集合”包括下列2类文本,第1类为:与概念集合中任一概念相关联并用该概念进行标注了的文本;第2类为:与概念集合中任何概念均不相关联的其他文本,但是该类其他文本由于与已经确定的概念均不关联,可以用“其他”进行标注、或者不做任何标注、或者用其他不与概念词语混淆的词语进行标注的文本等等,只要能清晰表明这类文本是能够与第1类文本进行区分的任何词语即可。
分类模型训练步骤Ⅲ,对于概念集合中的每个概念,当与该概念关联的标注语料文本集合中文本数量符合阈值条件时,则将与该概念关联的标注语料文本集合中的文本作为文本分类模型的正例,不与该概念关联的标注语料文本集合中的文本作为文本分类模型的负例,对该概念对应的文本分类模型的正例和负例进行训练,得到该概念对应的文本分类器,最终获得所有文本数量符合阈值条件的概念对应的文本分类器。
在本发明的一较佳实施例中,概念确定步骤Ⅰ中,确定概念集合X由概念xi组成,其中i=1,2,3,…n,概念集合X中的每个概念xi对应具有至少一个概念关键词组成的概念关键词集合Yi。
在本发明的一较佳实施例中,语料自动标注步骤Ⅱ包括:
步骤Ⅱ1,根据具体实际应用情况收集足够数量N的未标注语料,记未标注语料文本集合为D={dj},其中j=1,2,…,N;
步骤Ⅱ2,利用每个概念xi对应的概念关键词集合Yi中的概念关键词对未标注语料文本集合D中的每篇文本分别进行匹配处理,当未标注语料文本集合D中的某一篇文本dj与概念xi对应的概念关键词的匹配情况满足匹配条件时,则将该篇文本dj标注为与该概念xi相关联;对未标注语料文本集合D中每篇文本进行匹配处理得到标注语料文本集合C。
在本发明的一较佳实施例中,分类模型训练步骤Ⅲ包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于数库(上海)科技有限公司,未经数库(上海)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710216502.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种一物多用多媒体音箱
- 下一篇:一种呼吸喷雾器