[发明专利]一种文本处理用聚类方法系统在审

申请号：	202210572462.5	申请日：	2022-05-25
公开（公告）号：	CN114757302A	公开（公告）日：	2022-07-15
发明（设计）人：	和志强;王梦雪;马宁	申请（专利权）人：	河北经贸大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06F40/44;G06F40/30;G06F40/289;G06F40/242
代理公司：	六安市新图匠心专利代理事务所(普通合伙) 34139	代理人：	曾庆龄
地址：	050064 ***	国省代码：	河北;13
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本处理用聚类方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种文本处理用聚类方法系统，其特征在于，包括以下步骤：

S1：专利数据集构建，从选定领域的专利文献数据库采集专利文献信息组成原始数据集，所述专利文献信息包括专利文献号、专利名称、专利说明书摘要、专利所属IPC大类，从所述原始数据集中提取所有专利的说明书摘要采用分词模型对其去停用词与分词处理存储为训练语料，从所述原始数据集中提取部分专利说明书摘要的关键词存储为测试数据集；

S2：专利说明书摘要词向量表示阶段，使用基于数据增强的DAbased-W2V模型来生成词的向量化表示，包括如下小步骤，

a1：搜索训练语料中低频词、低频词阈值，则有：

其中S_count为原始语料中词总数，S_V为词典中词总数，ceil为向上取整，利用训练语料在MLM任务上对BERT模型进行增量训练得到BERT-target模型；

对低频词所在文档中低频词位置使用“MASK”进行替换，再使用训练得到的BERT-target的MLM任务对“MASK”位置预测生成最相关的k个待定扩展词；

a2：利用训练语料训练得到Word2Vec模型，判断扩展词是否存在于原始语料库内，如果存在则将其表示为1级扩展词，否则将其表示为未登录词；将1级扩展词输入至基础模型中分别得到每个扩展词基于原始语料的m个相关词；而对于原始语料外的未登录词，则利用义原树得到5个2级扩展词，再次判断其是否在原始语料库内，若原始语料库内存在至少1个2级扩展词，则将2级扩展词同样输入至基模型中求解m个相关词，否则将其对应的1级扩展词丢弃；在Word2Vec模型的基础上构建所有1级扩展词、2级扩展词之间的余弦相似度矩阵M；

使用矩阵M的行均值m_j作为该相关词的权值，矩阵M的均值m作为共性阈值；将扩展词对应相关词权重累加平均值作为该扩展词的共性权重D_i，则有：

当共性权重大于0时则保留该词，其中1级待扩展词直接加入扩展词集，2级词将其对应1级词加入扩展词集；

a3：用筛选后保留的扩展词替换文档中对应位置的低频词，来生成扩增数据；将扩增数据输入至使用原始数据训练得到的Word2Vec模型中进行增量训练，得到各个词的词表示；

S3:词向量组合阶段，将词的整体TF-IDF值whole(tfidf_i)和粗分类下TF-IDF值part(tfidf_i)分别与该词向量相乘后再取平均作为该词的加权词向量：

将专利说明书摘要中的所有词加权平均得到其向量化表示：

其中V(d_i)为文档i的向量表示，n为文档中包含的词总数，V'(W_j)为词j的加权向量表示；

S4：专利聚类阶段，使用基于GMM的灵活化聚类方法，包括如下小步骤：

b1:设定一个模糊的聚簇数范围K-area，取范围内的K值分别对专利说明书摘要向量化表示采用GMM算法获得文本聚类结果；数据类别划分计算方法为：

其中P(z_j＝i|x_j)表示样本x_j来自第i个分模型的后验概率，简记为γ_ji；P(x_j|Z_j＝i)表示按第i个高斯分模型生成的概率密度，P(X_j)表示综合所有的混合成分后总的概率密度；λ_j表示每个样本x_j的簇标记；

b2、构建文档的共现矩阵C，矩阵中元素c_ij：

其中f_k(d_i,d_j)表示在第k个聚类结果中第i个文档与j个文档的共现次数，n_k为第k个聚类的K值，N为全部K值的集合；

按位形成m×m维共现频率矩阵，共现频率的计算方法为：