[发明专利]一种文本处理用聚类方法系统在审
申请号: | 202210572462.5 | 申请日: | 2022-05-25 |
公开(公告)号: | CN114757302A | 公开(公告)日: | 2022-07-15 |
发明(设计)人: | 和志强;王梦雪;马宁 | 申请(专利权)人: | 河北经贸大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F40/44;G06F40/30;G06F40/289;G06F40/242 |
代理公司: | 六安市新图匠心专利代理事务所(普通合伙) 34139 | 代理人: | 曾庆龄 |
地址: | 050064 *** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 处理 用聚类 方法 系统 | ||
本发明公开了一种文本处理用聚类方法系统,包括以下步骤,专利数据集构建、基础Word2Vec模型训练、搜索训练语料中低频词、生成低频词的扩展词、扩展词筛选、利用筛选后的扩展词替换低频词生成扩增数据、对基础Word2Vec模型增量训练、生成词向量表示、结合粗分类标签生成专利说明书摘要的向量化表示、融合多次聚类结果与相似度阈值灵活生成专利聚类结果和聚类结果评价。本发明能够有效提取文本的语义特征,优化低频词的词表示,解决一词多义问题,从而提高聚类的准确性,利用数据共现频率代替设定聚类个数来灵活化得到聚类结果的方法,在未知聚类个数的情况下提高专利文献聚类结果的准确性。
技术领域
本发明涉及专利文本处理技术领域,尤其涉及一种文本处理用聚类方法系统。
背景技术
专利聚类是挖掘专利内有价值信息的基础步骤,聚类是一种无监督分析方法,在未知类别与类别数量的情况下将数据的有效特征进行表示,来处理形成类内数据对象高度相似且类间差别尽可能大的聚簇。
公开号为CN109446319A公开了一种基于K-means的生物医药专利聚类分析方法,属于信息检索技术领域。改方法将专利分析中专利申请量、专利授权量、专利成长率、专利有效率4个重要评价指标同时选作为聚类变量进行聚类分析。能够深层次挖掘数据间的关联,较好地对专利数据进行类别划分,使聚类结果更具整体性,以弥补传统专利数据分析的不足。
公开号CN104881401B公开了一种专利文献聚类方法,包括以下步骤:S1、语料集采集及预处理;S2、聚类分析语料的特征词提取;S3、基于词向量的聚类分析数据专利向量表示;S4、聚类;S5、聚类结果评价。该专利文献聚类方法综合考虑了专利文献的标题和摘要信息,通过将专利摘要信息从不同角度进行利用,考虑专利摘要文本的整体信息,同时考虑专利摘要中属性和属性值的信息,充分挖掘了专利文本摘要中隐含的语义信息;充分利用大规模语料中隐藏的信息,利用大规模的语料进行特征训练,将词语表示成低纬度的向量形式,避免了维灾难的同时更好地提取了文本中的信息;设置不同的权重,将标题、摘要和摘要的属性值对三种形式的数据进行融合,得到很好的专利聚类效果。
专利聚类分为文本向量化表示与向量聚类两部分。目前在文本表示过程的词向量编码阶段中存在低频词词表示性能差,以及多义词单一编码问题,在基于文本聚类的过程中存在文本数据类别数量难以确定的问题。
发明内容
基于背景技术存在的技术问题,本发明提出了一种文本处理用聚类方法系统。
本发明提出的一种文本处理用聚类方法系统,包括以下步骤:
S1:专利数据集构建,从选定领域的专利文献数据库采集专利文献信息组成原始数据集,所述专利文献信息包括专利文献号、专利名称、专利说明书摘要、专利所属IPC大类,从所述原始数据集中提取所有专利的说明书摘要采用分词模型对其去停用词与分词处理存储为训练语料,从所述原始数据集中提取部分专利说明书摘要的关键词存储为测试数据集;
S2:专利说明书摘要词向量表示阶段,使用基于数据增强的DAbased-W2V模型来生成词的向量化表示,包括如下小步骤,
a1:搜索训练语料中低频词、低频词阈值,则有:
其中Scount为原始语料中词总数,SV为词典中词总数,ceil为向上取整,利用训练语料在MLM任务上对BERT模型进行增量训练得到BERT-target模型;
对低频词所在文档中低频词位置使用“MASK”进行替换,再使用训练得到的BERT-target的MLM任务对“MASK”位置预测生成最相关的k个待定扩展词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河北经贸大学,未经河北经贸大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210572462.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种铯化钨体系透明隔热母粒及其制备方法
- 下一篇:一种机械工程传动装置