[发明专利]一种基于R语言的信息聚类方法在审

申请号：	201910587823.1	申请日：	2019-07-02
公开（公告）号：	CN110377736A	公开（公告）日：	2019-10-25
发明（设计）人：	刘家祥	申请（专利权）人：	厦门耐特源码信息科技有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F17/27;G06Q50/26
代理公司：	北京劲创知识产权代理事务所(普通合伙) 11589	代理人：	王志敏
地址：	361000 福建省***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	输入数据样本语言服务器信息聚类特征项类型库聚类集合预处理对比信息获得信息建立信息聚类分析聚类结果信息类型信息数据内存语言分析统计生产
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种基于R语言的信息聚类方法，所述方法包括以下步骤：S1、对信息进行统计并建立信息类型库；S2、获取待聚类的信息数据，以形成输入数据样本；S3、对输入数据样本进行预处理，形成输入数据样本的特征项集合；S4、搭建R语言服务器；S5、将信息类型库中的数据导入到所述R语言服务器内存；S6、将步骤3中生产的输入数据样本的特征项集合输入到R语言服务器中进行聚类分析；S7、通过R语言服务器对输入数据样本的特征项分析并对比信息类型库，获得信息聚类结果。本发明对信息聚类效率高且聚类准确精度好。

技术领域

本发明涉及信息聚类技术领域，尤其涉及一种基于R语言的信息聚类方法。

背景技术

R语言是一套完整的数据处理、计算和制图软件系统。其功能包括：数据存储和处理系统；数组运算工具(其向量、矩阵运算方面功能尤其强大)；完整连贯的统计分析工具；优秀的统计制图功能；简便而强大的编程语言：可操纵数据的输入和输出，可实现分支、循环，用户可自定义功能。

在工作中，对不同信息需要进行聚类处理，由于其信息内容的庞大性，相同或相似信息在不同地区的展现形式存在差异，例如名称或词语的描述彼此不同，从而影响信息信息工作准确快速进行，需要通过对信息信息进行聚类，以便工作正常有序进行；目前的信息聚类方法效率差，且聚类辨析精度不高，容易因计算错误影响工作的正常进行。

为解决上述问题，本申请中提出一种基于R语言的信息聚类方法。

发明内容

(一)发明目的

为解决背景技术中存在的技术问题，本发明提出一种基于R语言的信息聚类方法，对信息聚类效率高且聚类准确精度好。

(二)技术方案

为解决上述问题，本发明提供了一种基于R语言的信息聚类方法，所述方法包括以下步骤：

S1、对信息进行统计并建立信息类型库；

S2、获取待聚类的信息数据，以形成输入数据样本；

S3、对输入数据样本进行预处理，形成输入数据样本的特征项集合；

S4、搭建R语言服务器；

S5、将信息类型库中的数据导入到所述R语言服务器内存；

S6、将步骤3中生产的输入数据样本的特征项集合输入到R语言服务器中进行聚类分析；