[发明专利]用于文本挖掘的角K-均值在审
申请号: | 201810896161.1 | 申请日: | 2018-08-08 |
公开(公告)号: | CN109471882A | 公开(公告)日: | 2019-03-15 |
发明(设计)人: | P·泰勒达 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/28 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 高见;黄嵩泉 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据对象组 衬底 数据对象 文本挖掘 耦合 角距离 半导体封装装置 三角不等式 固定功能 硬件逻辑 可配置 逻辑或 上界 下界 指派 | ||
描述了用于文本挖掘的角K‑均值。半导体封装装置的实施例可包括衬底;耦合至衬底的逻辑,其中该逻辑以可配置逻辑或固定功能硬件逻辑中的一个或多个来实现,耦合至衬底的逻辑用于:确定数据对象与数据对象组之间的角距离,以及基于所确定角距离将数据对象指派给数据对象组。在一些实施例中,逻辑可基于三角不等式确定数据对象组的上界和下界中的一个或多个。公开了其它的实施例并对其主张权利。
技术领域
各实施例一般涉及数据集处理。更具体地,各实施例涉及用于文本挖掘的角k-均值技术。
背景技术
在数据挖掘领域中,k-均值技术可指用于将数据分组至k个聚类的过程。标准k-均值技术可基于数据点之间的欧几里德距离来对数据分组。球面k-均值技术可基于数据点之间的余弦相似度来对数据分组。
附图说明
通过阅读以下说明书和所附权利要求并通过参考以下附图,各实施例的各种优点对于本领域技术人员将变得显而易见,其中:
图1是根据实施例的电子处理系统的示例的框图;
图2是根据实施例的半导体封装装置的示例的框图;
图3A至3C是根据实施例的对数据对象分组的方法的示例的流程图;
图4是根据实施例的数据分组器的示例的框图;
图5是根据实施例的三点之间三角不等式原理的示例的示例性示图;
图6是根据实施例的角k-均值技术的方法的示例的流程图;
图7和8是根据实施例的数据分组器装置的示例的框图;
图9是根据实施例的处理器的示例的框图;以及
图10是根据实施例的系统的示例的框图。
具体实施方式
现转向图1,电子处理系统10的实施例可包括:处理器11;存储器12,该存储器12通信地耦合至处理器11;以及逻辑13,该逻辑13通信地耦合至处理器11以确定数据对象与数据对象组之间的角距离,并且基于所确定角距离来将数据对象指派给数据对象组。例如,逻辑13可基于三角不等式确定数据对象组的上界和下界中的一个或多个。在一些实施例中,逻辑13可进一步被配置成确定数据对象是否位于数据对象组的上界与下界内,以及响应于数据对象被确定为位于数据对象组的上界与下界内来确定数据对象与数据对象组之间的角距离。逻辑13还可维持相应数据对象组之间的距离的k乘k矩阵,其中k对应于数据对象组的目标数量。在一些实施例中,逻辑13还可维持每个数据对象与每个数据对象组的相应下界的n乘k矩阵,以及维持每个数据对象的相应上界的大小为n的数组,其中n对应于数据集中数据对象的总数量,并且其中k对应于数据对象组的目标数量。在本文实施例中的任一个中,数据集可包括文本文档集。
上述处理器11、存储器12、逻辑13中每一个的实施例以及其他系统组件能以硬件、软件或其任何合适组合来实现。例如,硬件实现可包括诸如例如可编程逻辑阵列(PLA)、场可编程门阵列(FPGA)、复杂可编程逻辑器件(CPLD)之类的可配置逻辑,或使用诸如例如专用集成电路(ASIC)、互补金属氧化物半导体(CMOS)或晶体管-晶体管逻辑(TTL)技术之类的电路技术的固定功能逻辑硬件,或者其任何组合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810896161.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于时空扫描的网络舆情预警监测方法
- 下一篇:个人征信报告分析平台