[发明专利]一种基于R语言的信息聚类方法在审

申请号：	201910587823.1	申请日：	2019-07-02
公开（公告）号：	CN110377736A	公开（公告）日：	2019-10-25
发明（设计）人：	刘家祥	申请（专利权）人：	厦门耐特源码信息科技有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F17/27;G06Q50/26
代理公司：	北京劲创知识产权代理事务所(普通合伙) 11589	代理人：	王志敏
地址：	361000 福建省***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	输入数据样本语言服务器信息聚类特征项类型库聚类集合预处理对比信息获得信息建立信息聚类分析聚类结果信息类型信息数据内存语言分析统计生产
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于R语言的信息聚类方法，其特征在于，所述方法包括以下步骤：

S1、对信息进行统计并建立信息类型库；

S2、获取待聚类的信息数据，以形成输入数据样本；

S3、对输入数据样本进行预处理，形成输入数据样本的特征项集合；

S4、搭建R语言服务器；

S5、将信息类型库中的数据导入到所述R语言服务器内存；

S6、将步骤3中生产的输入数据样本的特征项集合输入到R语言服务器中进行聚类分析；

S7、通过R语言服务器对输入数据样本的特征项分析并对比信息类型库，获得信息聚类结果。

2.根据权利要求1所述的一种基于R语言的信息聚类方法，其特征在于，对所述步骤1中建立的信息类型库进行管理。

3.根据权利要求2所述的一种基于R语言的信息聚类方法，其特征在于，所述对信息类型库进行管理包括实时添加新的信息类型和删除过时弃用的信息类型。

4.根据权利要求1所述的一种基于R语言的信息聚类方法，其特征在于，所述步骤2中获取待聚类的信息数据为一段历史时间内的信息数据。

5.根据权利要求1所述的一种基于R语言的信息聚类方法，其特征在于，所述步骤3中对输入数据样本进行预处理为分词处理，所述分词处理包括当检测到样本信息中出现符号、英文单词和/或数字时，判断该符号、英文单词和/或数字与所述样本信息的相关程度；

当判断出所述符号、英文单词和/或数字与所述样本信息的相关程度低于指定值时，删除所述符号、英文单词和/或数字。

6.根据权利要求1所述的一种基于R语言的信息聚类方法，其特征在于，所述步骤3中对输入数据样本进行预处理，形成输入数据样本的特征项集合还包括有还包括检测分词处理后的字词是否与预设的停用表中的字词相同；当检测到分词处理后的字词与预设的停用表中的字词相同时，删除分词处理后的相同的字词。

7.根据权利要求1所述的一种基于R语言的信息聚类方法，其特征在于，所述步骤5将信息类型库中的数据导入到所述R语言服务器内存具体为编写用于读取数据的R语言脚本，通过调用shell将指定的信息类型库数据加载到所述R语言服务器内存。

8.根据权利要求1所述的一种基于R语言的信息聚类方法，其特征在于，所述步骤5将信息类型库中的数据导入到所述R语言服务器内存还包括数据更新步骤，具体为：对实时性要求不高的数据，设置定时任务，在指定的时间间隔触发数据更新操作，将信息类型库中更新的数据加载到所述R语言服务器内存；对实时性要求高的数据，编写守护进程，实时监控信息类型库中指定表的数据更新情况，并将更新的数据同步加载到所述R语言服务器内存。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于厦门耐特源码信息科技有限公司，未经厦门耐特源码信息科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910587823.1/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于KNN技术的语料库文本分类方法
下一篇：海量文本的低成本分类与聚类处理方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于R语言的信息聚类方法在审

专利文献下载