|
钻瓜专利网为您找到相关结果 4433433个,建议您 升级VIP下载更多相关专利
- [发明专利]海量文本数据快速聚类方法-CN201911347726.1在审
-
陈泽勇;张治同;李志强;姚松;张莉
-
成都迪普曼林信息技术有限公司;四川大学
-
2019-12-24
-
2020-04-24
-
G06F16/35
- 本发明提出了海量文本数据快速聚类方法,外部输入的命令行参数和指定目录下读取的文本信息经预处理后通过内部接口调用预设的结构体完成对指定目录下的文本数据聚类,输出指定目录下的EXCEL文件或图形界面聚类结果,并对聚类效果进行评估;所述方法具体包括如下步骤:文本数据读取、文本信息预处理、文本数据聚类处理以及聚类结果输出;其中,文本信息预处理包括:S1:对中文文档进行分词,对英文文档进行TOKEN处理;S2:计算去除停用词后的文档simhash编码;S4:采用word2vector向量方式进行词嵌入,计算去除停用词后的文档向量;S5:采用bert向量方式进行词嵌入得到词向量;该方法通过内部或外部评估实现对聚类算法的最优聚类算法策略
- 海量文本数据快速方法
|