[发明专利]一种专利文本自动分类方法在审
申请号: | 201810623455.7 | 申请日: | 2018-06-15 |
公开(公告)号: | CN108897805A | 公开(公告)日: | 2018-11-27 |
发明(设计)人: | 刘桂锋;汪满容 | 申请(专利权)人: | 江苏大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 212013 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 专利文本 自动分类 特征词 分类 词频 半监督学习 待测样本 分布信息 加权因子 特征表示 特征选择 训练样本 样本结构 引入位置 整体处理 专利技术 图构建 向量化 有效地 概率 分词 权重 主权 统计 法律 学习 | ||
本发明公开了一种专利文本自动分类方法,该方法包括专利文本分词、专利文本特征选择及向量化、基于k近邻策略的专利文本概率超图构建及基于超图学习的专利文本自动分类;在专利文本特征表示方面选取标题、摘要及主权项三个最能代表专利技术主题和法律特性的元素,然后分别统计每个特征词在三个部分中的词频,最后通过引入位置加权因子来计算最终的特征词权重,相对于将整个专利文本看成一个整体处理的方式能够更加有效地描述专利文本的特征;在专利文本分类方面采用了基于概率超图半监督学习的方法,可以充分利用待测样本提供的样本结构分布信息来提高分类精度,从而可以在提供少量训练样本的情况下获得比较理想的分类精度和召回率。
技术领域
本发明属于专利文献的计算机分析技术领域,具体涉及一种基于概率超图半监督学习的专利文本自动分类方法。
背景技术
随着科技的迅速发展及全球经济一体化趋势加剧,专利的作用越来越受到人们的重视。面对海量的专利数据,现有的专利文本分类主要依靠专家的人工分类,耗费大量的人力物力财力,同时难以保证分类的准确率。因此,如何借助于计算机技术来有效地解决专利文本自动分类问题具有重要的理论意义和实用价值。
相对于传统的文本而言,专利文本具有领域词汇多、结构性及专业性强等特点,因此专利文本自动分类更具有挑战性。目前,基于传统文本分类方法,国内外学者已经提出了许多针对专利文本自动分类的方法。较早提出来的且比较有代表性的方法主要有支持向量机SVM、朴素贝叶斯、kNN(k近邻)等。Trappey等采用后向传播神经网络算法对IPC分类的小类和大组两个层级的专利文献进行自动分类,实验结果表明该方法取得比之前的分类方法更好的分类效果。He等提出了一种利用创新型关联规则自动构建基于TRIZ的专利分类方法,该方法能够发现专利文档特征的语义关系。Wu等提出的遗传算法与支持向量机融合的新算法(HGA-SVM),能够对支持向量机的所有参数进行优化,利于开发高精度的专利分类系统。Liu等基于文本内容、引文分析及专利元数据提出了一种新颖的基于专利网络的分类方法。Chen等提出了一种新的三阶段分类(three phase categorization,TPC)算法,并且在专利的IPC小组层面上取得较高的准确率。Zhu等提出了使用有监督机器学习技术作为一种互补方法的以需求为导向的专利分类方案,能够将专利数据集分类到用户定义的分类上。上述方法都是基于监督学习、分类器的精度及推广性能,需要依赖大量的训练样本。当以IPC分类体系作为分类目标时,由于积累了大量的人工分类的专利文献,因此比较容易满足分类器的训练要求。然而,有信息分析专家认为IPC更适合用于专利的检索而非分类,在特定需求下并不能较好地定位用户所需的技术信息,因此从实际应用环境出发,设置具有针对性的类目的价值更高。当以某种满足特定需求的类别体系作为分类目标,或是现有的IPC分类体系发生变化需要重新分类时,采用上述基于监督学习的分类方法需要人工标注大量的训练样本。由于训练样本的标注是一项费时费力并且比较有技术含量的工作,因而给专利文本自动分类带来了一定的不便和困难。
为了解决训练样本不足所带来的问题,基于半监督学习的分类方法应运而生,它旨在通过未标记样本提供的样本分布信息提高分类精度。目前现有的半监督学习方法有很多,其中广受国内外学者关注的是基于图的半监督学习方法。超图学习是对普通图学习的泛化和扩展,在超图中一条边可以包含任意数量的顶点,因而相对于普通图而言,超图具备描述多元关系的能力,这使得超图学习具有更好的性能表现。近年来超图理论的应用领域不断拓展和延伸,代表性的主要有移动用户细分、图像分类、用户创造内容、微博用户群落感知、科研合作网络等。
发明内容
现有的基于监督学习的专利文本分类方法需要依赖大量的训练样本,由于训练样本的标注是一项费时费力并且比较有技术含量的工作,因而给专利文本自动分类带来了一定的不便和困难。针对上述问题,本发明提出了一种基于概率超图半监督学习的专利文本自动分类方法,该方法可以利用待测样本提供的样本结构分布信息来提高分类精度。
一种专利文本自动分类方法,包括以下步骤:
步骤一、基于概率超图的专利文本建模
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏大学,未经江苏大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810623455.7/2.html,转载请声明来源钻瓜专利网。