[发明专利]一种基于R语言的信息聚类方法在审
申请号: | 201910587823.1 | 申请日: | 2019-07-02 |
公开(公告)号: | CN110377736A | 公开(公告)日: | 2019-10-25 |
发明(设计)人: | 刘家祥 | 申请(专利权)人: | 厦门耐特源码信息科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/27;G06Q50/26 |
代理公司: | 北京劲创知识产权代理事务所(普通合伙) 11589 | 代理人: | 王志敏 |
地址: | 361000 福建省*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 输入数据样本 语言服务器 信息聚类 特征项 类型库 聚类 集合 预处理 对比信息 获得信息 建立信息 聚类分析 聚类结果 信息类型 信息数据 内存 语言 分析 统计 生产 | ||
一种基于R语言的信息聚类方法,所述方法包括以下步骤:S1、对信息进行统计并建立信息类型库;S2、获取待聚类的信息数据,以形成输入数据样本;S3、对输入数据样本进行预处理,形成输入数据样本的特征项集合;S4、搭建R语言服务器;S5、将信息类型库中的数据导入到所述R语言服务器内存;S6、将步骤3中生产的输入数据样本的特征项集合输入到R语言服务器中进行聚类分析;S7、通过R语言服务器对输入数据样本的特征项分析并对比信息类型库,获得信息聚类结果。本发明对信息聚类效率高且聚类准确精度好。
技术领域
本发明涉及信息聚类技术领域,尤其涉及一种基于R语言的信息聚类方法。
背景技术
R语言是一套完整的数据处理、计算和制图软件系统。其功能包括:数据存储和处理系统;数组运算工具(其向量、矩阵运算方面功能尤其强大);完整连贯的统计分析工具;优秀的统计制图功能;简便而强大的编程语言:可操纵数据的输入和输出,可实现分支、循环,用户可自定义功能。
在工作中,对不同信息需要进行聚类处理,由于其信息内容的庞大性,相同或相似信息在不同地区的展现形式存在差异,例如名称或词语的描述彼此不同,从而影响信息信息工作准确快速进行,需要通过对信息信息进行聚类,以便工作正常有序进行;目前的信息聚类方法效率差,且聚类辨析精度不高,容易因计算错误影响工作的正常进行。
为解决上述问题,本申请中提出一种基于R语言的信息聚类方法。
发明内容
(一)发明目的
为解决背景技术中存在的技术问题,本发明提出一种基于R语言的信息聚类方法,对信息聚类效率高且聚类准确精度好。
(二)技术方案
为解决上述问题,本发明提供了一种基于R语言的信息聚类方法,所述方法包括以下步骤:
S1、对信息进行统计并建立信息类型库;
S2、获取待聚类的信息数据,以形成输入数据样本;
S3、对输入数据样本进行预处理,形成输入数据样本的特征项集合;
S4、搭建R语言服务器;
S5、将信息类型库中的数据导入到所述R语言服务器内存;
S6、将步骤3中生产的输入数据样本的特征项集合输入到R语言服务器中进行聚类分析;
S7、通过R语言服务器对输入数据样本的特征项分析并对比信息类型库,获得信息聚类结果。
优选的,对所述步骤1中建立的信息类型库进行管理。
优选的,所述对信息类型库进行管理包括实时添加新的信息类型和删除过时弃用的信息类型。
优选的,所述步骤2中获取待聚类的信息数据为一段历史时间内的信息数据。
优选的,所述步骤3中对输入数据样本进行预处理为分词处理,所述分词处理包括当检测到样本信息中出现符号、英文单词和/或数字时,判断该符号、英文单词和/或数字与所述样本信息的相关程度;
当判断出所述符号、英文单词和/或数字与所述样本信息的相关程度低于指定值时,删除所述符号、英文单词和/或数字。
优选的,所述步骤3中对输入数据样本进行预处理,形成输入数据样本的特征项集合还包括有还包括检测分词处理后的字词是否与预设的停用表中的字词相同;当检测到分词处理后的字词与预设的停用表中的字词相同时,删除分词处理后的相同的字词。
优选的,所述步骤5将信息类型库中的数据导入到所述R语言服务器内存具体为编写用于读取数据的R语言脚本,通过调用shell将指定的信息类型库数据加载到所述R语言服务器内存。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门耐特源码信息科技有限公司,未经厦门耐特源码信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910587823.1/2.html,转载请声明来源钻瓜专利网。