[发明专利]对象分类方法及装置在审
申请号: | 201610134575.1 | 申请日: | 2016-03-09 |
公开(公告)号: | CN107180022A | 公开(公告)日: | 2017-09-19 |
发明(设计)人: | 焦盼盼 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/62 |
代理公司: | 北京亿腾知识产权代理事务所11309 | 代理人: | 陈霁 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 对象 分类 方法 装置 | ||
技术领域
本申请涉及计算机技术领域,尤其涉及一种对象分类方法及装置。
背景技术
对象分类是对象挖掘的一个重要内容,是指按照预先定义的主题类别,为对象集合中的每个对象确定一个类别。以对象为文本为例来说,通过自动文本分类系统把文档进行归类,可以帮助人们更好地寻找需要的信息和知识。在人们看来,分类是对信息的一种最基本的认知形式。传统的文献分类研究有着丰富的研究成果和相当的实用水平。但随着对象信息的快速增长,特别是互联网上在线对象信息的激增,对象自动分类已经成为处理和组织大量文档数据的关键技术。现在,对象分类正在各个领域得到广泛的应用,例如,在互联网平台中,服务器可以根据用户通过客户端接收到的一句询问语言,对询问语言对应的对象信息进行分类,确定该对象信息对应的分类之后,依据相应的分类自动对用户的询问语言进行解答,推送相关的信息。
现有技术中,主要根据如下三种算法来对待分类对象进行分类,第一种算法是贝叶斯(Bayes)算法,根据该算法的分类过程是:根据Bayes算法来预测待分类对象归属于各个类别的可能性,选择可能性最大的一个类别作为该待分类对象的最终类别,然而由于Bayes算法会假设属性之间是相互独立的,而这个假设在实际中往往是不成立的,所以根据该算法对待分类对象进行分类会导致分类结果不准确的问题;第二种算法是支持向量机(svm)算法,根据该算法的分类过程是:根据区域中的训练样本计算该区域的决策曲面,由此确定该区域中待分类对象的类别;然而由于该算法比较复杂,不容易理 解,由此导致了待分类对象的分类过程也比较复杂以及难于优化的问题;第三种算法是K最近邻节点算法(k-Nearest Neighbor,kNN),根据该算法的分类过程是:找出与待分类对象距离最近的K个训练样本,将K个训练样本所归属的类别作为待分类对象的类别;然而该算法需要计算待分类对象与每个训练样本的距离,这会影响待分类对象的分类效率。
发明内容
本申请实施例提供了一种对象分类方法及装置,可以提高待分类对象的分类效率和分类准确性。
第一方面,提供了一种对象分类方法,该方法包括:
对获取的待分类对象进行预处理,以获取所述待分类对象的至少一个对象特征词;
按照预设的算法,对所述至少一个对象特征词进行分组,得到至少一个对象特征词组合,其中,每个对象特征词组合中包含一个以上对象特征词;
将所述至少一个对象特征词组合转换为对应的特征串;
从至少一个特征串中选取目标特征串,其中,所述目标特征串存储在预设的存储单元中,所述预设的存储单元用于存储多个预设的特征串以及每个预设的特征串归属于至少一个类别的概率值;
根据所述目标特征串归属于所述至少一个类别的概率值,确定所述待分类对象所归属的目标类别。
第二方面,提供了一种对象分类装置,该装置包括:预处理单元、分组单元、转换单元、选取单元和确定单元;
所述预设处理单元,用于对获取的待分类对象进行预处理,以获取所述待分类对象的至少一个对象特征词;
所述分组单元,用于按照预设的算法,对所述预处理单元获取的所述至少一个对象特征词进行分组,得到至少一个对象特征词组合,其中,每个对 象特征词组合中包含一个以上对象特征词;
所述转换单元,用于将所述分组单元分组得到的所述至少一个对象特征词组合转换为对应的特征串;
所述选取单元,用于从所述转换单元转换得到的至少一个特征串中选取目标特征串,其中,所述目标特征串存储在预设的存储单元中,所述预设的存储单元用于存储多个预设的特征串以及每个预设的特征串归属于至少一个类别的概率值;
所述确定单元,用于根据所述选取单元选取的所述目标特征串归属于所述至少一个类别的概率值,确定所述待分类对象所归属的目标类别。
本申请提供的对象分类方法及装置,先确定待分类对象的对象特征词;之后将对象特征词组合为对象特征词组合,并进一步将对象特征词组合转换为特征串;最后从特征串中选取与预设的特征串相一致的目标特征串,并通过计算目标特征串归属于预设的类别的概率值,来确定待分类对象的目标类别。也即本申请同时克服了现有技术中由于错误的假设而导致的分类不准确问题,算法过于复杂而导致的分类过程难于优化的问题以及计算过程繁琐而导致的分类效率低的问题。
附图说明
图1为本申请提供的预设的存储单元的建立方法流程图;
图2为本申请一种实施例提供的对象分类方法流程图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610134575.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据处理方法、系统及其服务器
- 下一篇:一种文本分类方法及系统