[发明专利]一种专利文献聚类方法在审
| 申请号: | 201510278103.9 | 申请日: | 2015-05-27 |
| 公开(公告)号: | CN104881401A | 公开(公告)日: | 2015-09-02 |
| 发明(设计)人: | 林鸿飞;孙东普 | 申请(专利权)人: | 大连理工大学 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 大连星海专利事务所 21208 | 代理人: | 徐雪莲 |
| 地址: | 116023 辽*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 专利 文献 方法 | ||
技术领域
本发明涉及一种专利文献语料的聚类方法,尤其是一种专利文献聚类方法。
背景技术
当下经济环境中,专利对于提升企业价值的作用愈来愈重要。通过申请专利可以保护企业的知识产权,进而保护企业的核心竞争力。目前学者们已经进行针对专利文献进行了很多研究,如对专利摘要的标注,对专利关键技术的抽取,对专利进行聚类分析等。
近年来,在数据挖掘领域中,对文本聚类的研究取得了很多成果。其中很多方法均以将文档表示成向量形式为基础,利用聚类算法对文档进行聚类分析。专利文献中包含大量非结构的信息形式,因此可以将聚类应用于专利分析。目前,已经有很多关于专利聚类分析的研究,如基于词向量的专利聚类分析,基于技术功效矩阵的聚类分析等。目前,基于词向量的专利聚类研究,主要是将关键词的文档和词频信息加入到文档向量表示中。这种特征表示形式容易造成维灾难,应用与降维的方法有设置阈值和矩阵分解,常用的矩阵分解方法有奇异值分解和非负矩阵分解。这些方法虽然可以达到降维的目的,却还是没有将特征词上下文信息加入。深度学习可以被应用到文本的向量表示,该方法在降维的同时将文本上下文信息加入到文档向量中,可以很好地提升文档向量包含的信息。
目前对专利文本聚类的研究中,大部分是对专利摘要的文本进行研究,这些研究都取得了不错的效果。选择一种聚类因素进行专利聚类分析,可能对专利分析不够全面。另一方面,仅使用同一种形式的语料进行聚类融合,可能会遗漏很多隐含信息。
发明内容
本发明的目的是提供一种充分挖掘专利文本摘要中隐含的语义信息、充分利用大规模语料中隐藏信息的专利文献聚类方法。
本发明解决现有技术问题所采用的技术方案:一种专利文献聚类方法,包括以下步骤:
S1、语料集采集及预处理:
a1、语料集采集:选定预定领域,从专利文献数据库中按照专利IPC分类号在每个类别中采集专利文献信息组成语料集,所述专利文献信息包括专利文献的专利标题、IPC分类号和专利摘要;从所述语料集中提取所有专利文献的专利摘要并存储为词向量训练语料集;从语料集中提取部分专利文献的专利摘要并存储为属性和属性值模型训练语料集;从语料集中提取部分专利文献的专利标题、专利摘要和IPC分类号并存储为聚类分析语料集;从聚类分析语料集中抽取所有专利摘要并将其分成两个部分,一部分作为聚类分析摘要集,另一部分作为聚类分析属性和属性值抽取集;从聚类分析语料集中抽取所有专利标题并存储为聚类分析标题集;
a2、分词处理及标注:采用分词模型对词向量训练语料集、聚类分析标题集、聚类分析摘要集、属性和属性值模型训练语料集、聚类分析属性和属性值抽取集进行分词处理分别得到相对应的词向量训练词语集、聚类分析标题词语集、聚类分析摘要词语集、属性和属性值模型训练词语集、聚类分析属性和属性值抽取词语集,同时对属性和属性值模型训练词语集和属性值抽取词语集进行词性标注及属性标注;所述属性标注以属性和属性值组成的数据组的形式进行标注;
S2、聚类分析语料的特征词提取:对步骤S1中得到的与聚类分析摘要集相对应的聚类分析摘要词语集,统计聚类分析摘要词语集中每个词语在聚类分析摘要集的每篇摘要中出现的频率和聚类分析摘要集中包含该词语的专利摘要的数量,计算每个词语的TFIDF值:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510278103.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:信息提供装置以及信息提供方法
- 下一篇:修复均化的方法与系统





