[发明专利]一种文本处理用聚类方法系统在审
申请号: | 202210572462.5 | 申请日: | 2022-05-25 |
公开(公告)号: | CN114757302A | 公开(公告)日: | 2022-07-15 |
发明(设计)人: | 和志强;王梦雪;马宁 | 申请(专利权)人: | 河北经贸大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F40/44;G06F40/30;G06F40/289;G06F40/242 |
代理公司: | 六安市新图匠心专利代理事务所(普通合伙) 34139 | 代理人: | 曾庆龄 |
地址: | 050064 *** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 处理 用聚类 方法 系统 | ||
1.一种文本处理用聚类方法系统,其特征在于,包括以下步骤:
S1:专利数据集构建,从选定领域的专利文献数据库采集专利文献信息组成原始数据集,所述专利文献信息包括专利文献号、专利名称、专利说明书摘要、专利所属IPC大类,从所述原始数据集中提取所有专利的说明书摘要采用分词模型对其去停用词与分词处理存储为训练语料,从所述原始数据集中提取部分专利说明书摘要的关键词存储为测试数据集;
S2:专利说明书摘要词向量表示阶段,使用基于数据增强的DAbased-W2V模型来生成词的向量化表示,包括如下小步骤,
a1:搜索训练语料中低频词、低频词阈值,则有:
其中Scount为原始语料中词总数,SV为词典中词总数,ceil为向上取整,利用训练语料在MLM任务上对BERT模型进行增量训练得到BERT-target模型;
对低频词所在文档中低频词位置使用“MASK”进行替换,再使用训练得到的BERT-target的MLM任务对“MASK”位置预测生成最相关的k个待定扩展词;
a2:利用训练语料训练得到Word2Vec模型,判断扩展词是否存在于原始语料库内,如果存在则将其表示为1级扩展词,否则将其表示为未登录词;将1级扩展词输入至基础模型中分别得到每个扩展词基于原始语料的m个相关词;而对于原始语料外的未登录词,则利用义原树得到5个2级扩展词,再次判断其是否在原始语料库内,若原始语料库内存在至少1个2级扩展词,则将2级扩展词同样输入至基模型中求解m个相关词,否则将其对应的1级扩展词丢弃;在Word2Vec模型的基础上构建所有1级扩展词、2级扩展词之间的余弦相似度矩阵M;
使用矩阵M的行均值mj作为该相关词的权值,矩阵M的均值m作为共性阈值;将扩展词对应相关词权重累加平均值作为该扩展词的共性权重Di,则有:
当共性权重大于0时则保留该词,其中1级待扩展词直接加入扩展词集,2级词将其对应1级词加入扩展词集;
a3:用筛选后保留的扩展词替换文档中对应位置的低频词,来生成扩增数据;将扩增数据输入至使用原始数据训练得到的Word2Vec模型中进行增量训练,得到各个词的词表示;
S3:词向量组合阶段,将词的整体TF-IDF值whole(tfidfi)和粗分类下TF-IDF值part(tfidfi)分别与该词向量相乘后再取平均作为该词的加权词向量:
将专利说明书摘要中的所有词加权平均得到其向量化表示:
其中V(di)为文档i的向量表示,n为文档中包含的词总数,V'(Wj)为词j的加权向量表示;
S4:专利聚类阶段,使用基于GMM的灵活化聚类方法,包括如下小步骤:
b1:设定一个模糊的聚簇数范围K-area,取范围内的K值分别对专利说明书摘要向量化表示采用GMM算法获得文本聚类结果;数据类别划分计算方法为:
其中P(zj=i|xj)表示样本xj来自第i个分模型的后验概率,简记为γji;P(xj|Zj=i)表示按第i个高斯分模型生成的概率密度,P(Xj)表示综合所有的混合成分后总的概率密度;λj表示每个样本xj的簇标记;
b2、构建文档的共现矩阵C,矩阵中元素cij:
其中fk(di,dj)表示在第k个聚类结果中第i个文档与j个文档的共现次数,nk为第k个聚类的K值,N为全部K值的集合;
按位形成m×m维共现频率矩阵,共现频率的计算方法为:
其中m为数据总数;
b3:设定相似度阈值来按需生成聚类结果,相似度判定计算为:
其中为设定的相似度;
依据共现概率是否达到相似度阈值来判定两数据节点间是否有边,在两节点间存在边时,按深度优先遍历生成聚类结果;
S5:聚类结果评价阶段,包括如下小步骤:
c1:在设定的K值范围内完成多次聚类,计算各结果方差、各结果簇内样本数量平均值与大于平均值的簇总数,取方差较低且簇内样本数量平均值与大于平均值的簇总数相对稳定时的K值;
c2:聚类结果中同一聚簇内数据间技术关键词重合度作为聚类的准确性判定标准E,
其中c(wij)为技术关键词wij在类别i下的共现次数,mij为类别i内第j个数据内技术关键词数量,N为聚类结果关键词总量;
c3:采用Jaccard系数依据专利的IPC大类标签,来计算聚类结果的准确率AC,
其中SS表示聚类内部同一IPC分类的数据量,SD为同一IPC分类下应有数据量,DS为聚类内部不同IPC分类的数据量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河北经贸大学,未经河北经贸大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210572462.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种铯化钨体系透明隔热母粒及其制备方法
- 下一篇:一种机械工程传动装置