[发明专利]一种专利文本自动分类方法在审

申请号：	201810623455.7	申请日：	2018-06-15
公开（公告）号：	CN108897805A	公开（公告）日：	2018-11-27
发明（设计）人：	刘桂锋;汪满容	申请（专利权）人：	江苏大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	暂无信息	代理人：	暂无信息
地址：	212013 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	专利文本自动分类特征词分类词频半监督学习待测样本分布信息加权因子特征表示特征选择训练样本样本结构引入位置整体处理专利技术图构建向量化有效地概率分词权重主权统计法律学习
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种专利文本自动分类方法，其特征在于，包括以下步骤：

步骤一、基于概率超图的专利文本建模

选取代表专利技术主题和法律特性的专利文本组成部分，分词处理后得到特征词，统计每个特征词在组成部分中的词频，最后通过引入位置加权因子来计算最终的特征词权重；将超边内各顶点与超边相应类簇质心的相似度作为关联矩阵中相应元素的取值，并将超边内各顶点与超边相应类簇质心的相似度之和作为该超边的权重；

步骤二、基于超图半监督学习的专利文本分类

计算每个顶点对应各个类别的得分值，然后分别选取得分值最高的类别作为每个顶点的最终类别。

2.如权利要求1所述的一种专利文本自动分类方法，其特征在于，所述代表专利技术主题和法律特性的专利文本组成部分为标题、摘要及主权项。

3.如权利要求1所述的一种专利文本自动分类方法，其特征在于，所述超边相应类簇质心的获取过程为：将每篇专利文本作为超图中的一个顶点，然后分别以每个顶点为基准构建一条超边，连接该顶点及其k个近邻顶点，对于每条超边，将该超边连接的k+1个顶点看成一个类簇，然后计算相应类簇的质心。

4.如权利要求3所述的一种专利文本自动分类方法，其特征在于，所述相应类簇的质心的计算公式为其中表示质心，表示顶点的第s个分量。

5.如权利要求1或4所述的一种专利文本自动分类方法，其特征在于，所述超边内各顶点与超边相应类簇质心的相似度的计算方法为：其中v_i为顶点，顶点v_i可表示为一个r维向量，即v_i＝(w_i1,w_i2,…,w_ir)，w_ir表示向量的一维。

6.如权利要求1所述的一种专利文本自动分类方法，其特征在于，所述计算每个顶点对应各个类别的得分值公式为：F＝(1-α)(I-αΘ)^-1Y，其中初始标记矩阵Y表示各顶点对应各类别的初始类别，类别得分矩阵F表示各顶点对应各类别的得分值，H是关联矩阵、W是权重对角阵、D_v是顶点度对角阵、D_e是超边度对角阵，α＝1/(1+μ)，μ为正则化参数。

7.如权利要求6所述的一种专利文本自动分类方法，其特征在于，所述矩阵Y和F为n×l矩阵，其中n为数据集中专利文本总数，l是类别的数量。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于江苏大学，未经江苏大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810623455.7/1.html，转载请声明来源钻瓜专利网。

上一篇：一种互联网空间数据的搜索系统及方法
下一篇：数据一致性比对方法、装置、存储介质及电子设备

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种专利文本自动分类方法在审

专利文献下载