[发明专利]一种基于说明书的专利分类方法有效
申请号: | 201710082677.8 | 申请日: | 2017-02-16 |
公开(公告)号: | CN107122382B | 公开(公告)日: | 2021-03-23 |
发明(设计)人: | 朱玉全;金健;佘远程;石亮 | 申请(专利权)人: | 江苏大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 212013 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 说明书 专利 分类 方法 | ||
本发明公开了一种基于说明书的专利分类方法,属于文本处理与数据挖掘领域。首先对专利说明书进行文本预处理;其后构建倒排索引文件,利用信息增益和词频相结合的特征选择方法来选取特征词;进一步利用的改进过的TF‑IDF公式计算特征词权重,并构建专利特征向量;然后构建训练专利领域集合;最后利用优化过的KNN分类器对专利进行分类。该项研究为专利文献分类提供了新的思路,也为进一步研究专利文献智能检索等奠定了基础。
技术领域
本发明属于计算机分析技术在专利文献的的应用,具体涉及一种利用专利说明书的专利分类方法。
背景技术
专利是技术创新和企业价值的具体表现,是知识发展和创新的重要载体、成果和源泉之一,许多发明创造成果仅出现于专利文献中。据世界知识产权组织(WIPO)统计,世界上发明成果的70%~90%首先出现在专利文献中,而不是杂志、论文等其他载体的文献中。此外,为了保护自身的利益,企业会尽可能早的申请专利,专利中往往集中了最为活跃和先进的技术,包含了世界上90%~95%的技术信息。同时为了审查的方便,专利文献往往撰写的比较详细,相对于其他类型的资料而言,专利文献能够提供更多的信息,是一种最常见的技术创新成果,记录着专利活动的完整过程。它不仅反映各个技术领域中技术活动的现状,而且能够体现某个特定技术领域中技术活动的发展历史。专利文献中含有每一件申请专利的发明创造的具体技术解决方案,对于企业创新具有非常重要的作用,不仅使企业可以了解最新科研动态,避免重复研究,节约研究时间和科研经费,同时还可启迪企业研究人员的创新思路,提高创新的起点,借鉴以往的发明,极大缩短科研工作进度。
随着我国新研究成果和发明创造的不断涌现,专利数量呈现出快速的增长。截止2016年10月5日,我国已公布的发明专利数已超过598万件,其中授权发明专利总数为223.850万件。如果每个专利的平均大小为2M,则专利数据的容量高达几百TB。为了科学地管理这些专利文献数据,同时也为了快速、方便地检索相关专利文献,专利文献的分类显得尤为重要。目前,世界上大多数国家均采用国际专利分类法IPC(International PatentClassification)来对专利文献进行分类,IPC按照五个等级分类,即部(Section)、大类(Class)、小类(Subclass)、主组(Main Grop)、分组(Grop),其中部是分类表中最高等级的分类层,按照领域不同,分为八个大部,用一位的英文字母标记,分别是A-H,每个部分下属设有多个大类,大类是由二位数字组成,每个部下面有不同数量的大类。例如:G06F21/00表示物理-电数字数据处理-防止未授权行为的保护计算机、其部件、程序或数据的安全装置。
由此可见,对于已或即将公布的发明专利而言,必须赋予一个或多个与之对应的分类号,如发明专利“一种关联规则挖掘中隐私数据的保护方法”的分类号为G06F21/00。对于即将提交的申请专利来讲,其分类号是未知并需要确定的,对此,目前常用的做法是根据专利描述对象的所属领域或专利内容来确定,需要依靠相关专家人工阅读申请书,随着专利申请量的急剧增加(每年的专利申请数已接近100万),此方法需要耗费大量的人力和物力,而且专家自身知识的局限性也难以保证分类结果的一致性和准确性。为此,本发明提出了一种基于专利文献说明书的专利分类方法,该方法利用已公布发明专利说明书中的信息来构造分类器或分类函数,并以此来确定申请专利的类别,由此实现专利的自动分类。
发明内容
本发明的目的在于针对现有专利分类方法不能充分有效地利用已公布发明专利中的说明书信息,提出一种基于专利文献说明书的专利分类方法,该方法将充分利用已公布发明专利所包含的说明书信息以及对应的类别来构造分类器或分类函数,以此来确定已提交申请专利的类别,并就构造过程中说明书的特征提取和选择、分类器的确定等方面提出了相应的优化解决方案。
本发明采用的技术方案是:基于专利文献说明书的专利分类方法主要包括以下步骤:
(1)专利数据预处理
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏大学,未经江苏大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710082677.8/2.html,转载请声明来源钻瓜专利网。