[发明专利]一种文本处理用聚类方法系统在审
申请号: | 202210572462.5 | 申请日: | 2022-05-25 |
公开(公告)号: | CN114757302A | 公开(公告)日: | 2022-07-15 |
发明(设计)人: | 和志强;王梦雪;马宁 | 申请(专利权)人: | 河北经贸大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F40/44;G06F40/30;G06F40/289;G06F40/242 |
代理公司: | 六安市新图匠心专利代理事务所(普通合伙) 34139 | 代理人: | 曾庆龄 |
地址: | 050064 *** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种文本处理用聚类方法系统,包括以下步骤,专利数据集构建、基础Word2Vec模型训练、搜索训练语料中低频词、生成低频词的扩展词、扩展词筛选、利用筛选后的扩展词替换低频词生成扩增数据、对基础Word2Vec模型增量训练、生成词向量表示、结合粗分类标签生成专利说明书摘要的向量化表示、融合多次聚类结果与相似度阈值灵活生成专利聚类结果和聚类结果评价。本发明能够有效提取文本的语义特征,优化低频词的词表示,解决一词多义问题,从而提高聚类的准确性,利用数据共现频率代替设定聚类个数来灵活化得到聚类结果的方法,在未知聚类个数的情况下提高专利文献聚类结果的准确性。 | ||
搜索关键词: | 一种 文本 处理 用聚类 方法 系统 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河北经贸大学,未经河北经贸大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202210572462.5/,转载请声明来源钻瓜专利网。
- 上一篇:一种铯化钨体系透明隔热母粒及其制备方法
- 下一篇:一种机械工程传动装置