[发明专利]基于神经网络和贝叶斯模型的多层次递进分类方法及系统在审
申请号: | 201811647945.7 | 申请日: | 2018-12-29 |
公开(公告)号: | CN109784387A | 公开(公告)日: | 2019-05-21 |
发明(设计)人: | 袁晓艳;邱实;裴非;李昊;武新 | 申请(专利权)人: | 天津南大通用数据技术股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 天津滨海科纬知识产权代理有限公司 12211 | 代理人: | 杨慧玲 |
地址: | 300384 天津市滨海新区高新区*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 神经网络 贝叶斯模型 分类样本 大类 递进 贝叶斯网络模型 神经网络模型 神经网络训练 分类器模型 数据预处理 海量数据 模型确定 模型准备 特征向量 预测结果 第一层 分类 预测 构建 标签 | ||
本发明提出一种基于神经网络和贝叶斯模型的多层次递进分类方法及系统,包括:神经网络数据预处理,对第一层模型准备好神经网络训练模型的特征向量和预测结果;神经网络的训练,在准备好的数据上进行神经网络模型的训练,构建大类层次的分类器模型;贝叶斯模型的训练,在每个大类下建立该类别的贝叶斯网络模型;待分类样本的预测步骤。本发明充分利用不同模型的优缺点,对海量数据根据层次的需要做了分批训练,由此一系列的模型确定待分类样本的标签,并对多个模型的训练和预测提出了相应的解决方案。
技术领域
本发明属于数据挖掘建模领域,特别是涉及到一种基于神经网络和贝叶斯模型的多标签多级分类下的多层次递进式分类方法及系统。
背景技术
自动文本分类技术是指通过计算机的数据处理能力,实现在预定义的分类体系下文本自动进行分类的技术。这种技术根据给定的数据的特征,与一个或多个类别相关联。从而实现文本的多标签分类。
海量数据的多标签文类在日常生活中是很常见的。例如在专利领域中,截至2018年6月,我国已经公布的发明专利数已经超过了800万件,为了快速、方便地检索相关文献,文献分类显得尤为重要。专利不同于其他文本,拥有自身独特的一套国际专利分类体系(IPC分类)IPC分类包括了与发明创造有关的全部知识领域,标志专利所属的具体专业领域,在专利审查过程中,审查员需要经过粗分、细分、实审确认的分类流程,最终赋予具体专利对应的IPC号。2005年IPC联盟大会成员国、世界知识产权组织(WIPO)将第8版IPC分成基本版和高级版两级结构。基本版余额20000条,包括部、大类、小类、大组和在某些技术领域的少量多点组的小组。IPC高级版约70000条,包括基本版以及对基本版进一步细分的条目。目前,IPC分类体系广泛运用在世界各国的专利文献分类和检索中,我国使用的正是国际专利分类体系。
IPC分类号采用层级的形式,将技术内容注明:部-分部-大类-小类-大组/小组,逐级形成完整的类别体系。技术领域分为8个部,用英文字符A~H表示。在各个层次上,每一个类别都有其对应的类别描述信息,这些描述随着层次的深化,描述也在不断地加深。分类体系的层级越高,类别描述的抽象成都越大,尤其是部和大类,层次越低描述的越细致;下一个层次的描述是对上一个层次的细化,小组的描述不能脱离其对应的主组独立看待。同时,由于一个专利可能分属不同的类别,级可能存在对应若干分类号的现象,其中主要用途所确定的分类号为主分类号,以次要用途确定的分类号为副分类号。例如G06F21/00表示物理-电数字数据处理-防止未授权行为的保护计算机、其部件、程序或数据的安全装置。
目前的现有技术中,对于上述多标签多级分类的数据,在数据挖掘领域并没有很好的数据训练方法。
发明内容
为了解决海量数据多标签分类难以训练的问题,本发明提出了一种分层多标签分类方法,充分利用不同模型的优缺点,对海量数据根据层次的需要做了分批训练,由此一系列的模型确定待分类样本的标签,并对多个模型的训练和预测提出了相应的解决方案。
为达到上述目的,本发明的技术方案是这样实现的:
一种基于神经网络和贝叶斯模型的多层次递进分类方法,总体步骤包括:
S1、神经网络数据预处理,对第一层模型准备好神经网络训练模型的特征向量和预测结果;
S2、神经网络的训练,在准备好的数据上进行神经网络模型的训练,构建大类层次的分类器模型;
S3、贝叶斯模型的训练,在每个大类下建立该类别的贝叶斯网络模型;
S4、待分类样本的预测步骤。
进一步的,步骤S3包括:
S3.1、子类模型数据准备:获取每个大类下面的所有样本,如果一个样本属于不同的大类,按照真实属性提取;
S3.2、建立子类模型的贝叶斯网络分类器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津南大通用数据技术股份有限公司,未经天津南大通用数据技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811647945.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用语义分割辅助物体检测的方法
- 下一篇:窃电用户识别方法和装置