[发明专利]基于主成分聚类的文本信息挖掘方法及装置有效

申请号：	201410857134.5	申请日：	2014-12-30
公开（公告）号：	CN104462607B	公开（公告）日：	2018-01-23
发明（设计）人：	余宇新	申请（专利权）人：	余宇新
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	200433 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及文本信息处理领域，特别涉及一种基于主成分聚类的文本信息挖掘方法及装置，用以解决现有技术处理得到的信息有效性不高的问题。本发明实施例中，通过统计词语的之间的共现次数，以此得到每个词语与其它词语的链接总数，然后基于该链接总数来确定中心特征较强的词语，由此构建观测数据矩阵，在此基础上采用主成分聚类的方式对该矩阵进行处理，并将得到的聚类结果与对应的词语以及词频匹配，最终获得文本信息挖掘的结果。
搜索关键词：	基于成分文本信息挖掘方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于主成分聚类的文本信息挖掘方法，包括以下步骤：由语句集中提取词语，并统计所述词语的词频；提取词频最大的n个词语，并统计所述n个词语中每个词语在语句集的每个语句中与其余词语的共现次数；在所述n个词语中提取链接总数最多的q个词语，生成观测数据矩阵，其中所述链接总数为每个词语与其余词语的共现次数的总数，所述观测数据矩阵的矩阵元素为所述q个词语对应的共现次数，其中q≤n；对观测数据矩阵进行主成分聚类分析，获得聚类结果；将所述聚类结果与对应的词语以及词频匹配，获得文本信息挖掘的结果；其特征在于，在将所述聚类结果与对应的词语以及词频匹配之后，还包括：若所述聚类结果的主成分仅有一个，则在所述词频最大的n个词语中选取至少一个词语，将选取的所述词语在共现次数统计中去除，重新提取链接总数最多的q个词语，生成观测数据矩阵。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于余宇新，未经余宇新许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201410857134.5/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于主成分聚类的文本信息挖掘方法及装置有效

专利文献下载