[发明专利]一种专利文本自动分类方法在审

申请号：	201810623455.7	申请日：	2018-06-15
公开（公告）号：	CN108897805A	公开（公告）日：	2018-11-27
发明（设计）人：	刘桂锋;汪满容	申请（专利权）人：	江苏大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	暂无信息	代理人：	暂无信息
地址：	212013 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种专利文本自动分类方法，该方法包括专利文本分词、专利文本特征选择及向量化、基于k近邻策略的专利文本概率超图构建及基于超图学习的专利文本自动分类；在专利文本特征表示方面选取标题、摘要及主权项三个最能代表专利技术主题和法律特性的元素，然后分别统计每个特征词在三个部分中的词频，最后通过引入位置加权因子来计算最终的特征词权重，相对于将整个专利文本看成一个整体处理的方式能够更加有效地描述专利文本的特征；在专利文本分类方面采用了基于概率超图半监督学习的方法，可以充分利用待测样本提供的样本结构分布信息来提高分类精度，从而可以在提供少量训练样本的情况下获得比较理想的分类精度和召回率。
搜索关键词：	专利文本自动分类特征词分类词频半监督学习待测样本分布信息加权因子特征表示特征选择训练样本样本结构引入位置整体处理专利技术图构建向量化有效地概率分词权重主权统计法律学习
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种专利文本自动分类方法，其特征在于，包括以下步骤：步骤一、基于概率超图的专利文本建模选取代表专利技术主题和法律特性的专利文本组成部分，分词处理后得到特征词，统计每个特征词在组成部分中的词频，最后通过引入位置加权因子来计算最终的特征词权重；将超边内各顶点与超边相应类簇质心的相似度作为关联矩阵中相应元素的取值，并将超边内各顶点与超边相应类簇质心的相似度之和作为该超边的权重；步骤二、基于超图半监督学习的专利文本分类计算每个顶点对应各个类别的得分值，然后分别选取得分值最高的类别作为每个顶点的最终类别。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于江苏大学，未经江苏大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810623455.7/，转载请声明来源钻瓜专利网。

上一篇：一种互联网空间数据的搜索系统及方法
下一篇：数据一致性比对方法、装置、存储介质及电子设备

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种专利文本自动分类方法在审

专利文献下载