[发明专利]数据分群装置和方法在审
申请号: | 201210305587.8 | 申请日: | 2012-08-24 |
公开(公告)号: | CN103631809A | 公开(公告)日: | 2014-03-12 |
发明(设计)人: | 庄惟尧 | 申请(专利权)人: | 宏碁股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 隆天国际知识产权代理有限公司 72003 | 代理人: | 张龙哺;刘晓飞 |
地址: | 中国台*** | 国省代码: | 中国台湾;71 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 分群 装置 方法 | ||
技术领域
本发明主要是涉及一种数据分群技术,特别是涉及可利用一文件自动检测递回分群方法(Auto-detect Text Recursively Clusting,ADTR)来进行数据分群的技术。
背景技术
近年来,由于无线通信技术的快速发展,因此,各式各样的可携式以及手持装置,例如:移动电话、智能型手机(smart phone)、个人数字助理(PDA)、平板电脑(Tablet PC)等电子商品不断的在市场上被推出,且这些电子商品的功能也越来越多元化。此外,由于这些装置的便利,也使得这些装置成为人们的生活必需品之一。
除了前述支各种无线通信装置的硬件外,还有许多可配合前述硬件来执行与应用的软件与功能不断地被开发出来,以让使用者可以更便利、更即时、且更随时随地的理财、工作、娱乐或撷取信息等等。随着移动网络的普及手持移动装置的普遍,现代人在移动时,如搭车、捷运上通过移动网络阅读新闻已成为重要趋势。现今有为数众多的新闻来源网站,加上由于目前各家媒体所提供的新闻的简易信息聚合(Really Simple Syndication,RSS)各有各的排序方式,十分庞杂。虽然可容易得到为数众多的新闻事件,却无法依新闻事件进行追踪或重要性分类。另外,目前阅读新闻的应用软件主要是针对新闻的简易信息聚合(RSS)出处,及新闻总纲进行新闻的呈现。造成阅读者在阅读经验上,不容易找到自己所关心的新闻事件,也不容易找到时下重要的新闻事件。
此外,中文新闻的撰写是非结构化的格式,因此,在人工智能自动分类或分群时,很难轻易的将相似的文章判断为一群;另一方面,分群时往往不同的新闻容易因部分较不具代表性的字词而被分在同一群,使得若要找出同一新闻事件时,变得较为不容易。此外,数据分群时,群集数的决定往往是十分不容易的,一般通过事先定义或着事先观察,且不论哪一种方法都需要人工去参与协助。
发明内容
有鉴于上述先前技术的问题,本发明提供了一种数据分群技术,特别是可利用一文件自动检测递回分群方法(Auto-detect Text Recursively Clusting,ADTR)来进行数据分群的技术。
根据本发明的一实施例提供了一种数据分群方法,包括以下步骤:由一新闻数据库取得多个数据;根据上述数据间的一距离关系,建立一整体侧影样式表,以取得一初步分群参考数目;根据上述初步分群参考数目利用一分群演算法将多个数据分为多个群集;计算每一上述群集的一群内平均距离;以及比较上述群内平均距离是否小于一门槛值,其中若上述群内平均距离小于上述门槛值,则将对应上述群内平均距离的上述群集存入一事件数据库。
根据本发明的一实施例提供了一种数据分群装置,包括:一新闻数据库,用以存储多个数据;一计算模块,根据上述数据间的一距离关系,用以建立一整体侧影样式表,再根据上述整体侧影样式表,取得一初步分群参考数目;一分群模块,根据上述初步分群参考数目利用一分群演算法将多个数据分为多个群集,再计算每一上述群集的一群内平均距离(Intra-Cluster distance),以及一比较模块,用以比较上述群内平均距离是否小于一门槛值,其中若上述群内平均距离小于上述门槛值,则将对应上述群内平均距离的上述群集存入一事件数据库中。
本发明可将杂乱的新闻进行分群,以得到不同新闻的简易信息聚合(RSS)来源但却是相似新闻事件的群集,因而达到提升新闻事件分群准确性的结果。
附图说明
图1是显示根据本发明一实施例所述的数据分群装置100的架构图。
图2是显示根据本发明一实施例所述的整体侧影值和群集数目对应的示意图。
图3是显示根据本发明一实施例所述的数据分群方法的流程图300。
图4是显示根据本发明一实施例所述的建立整体侧影样式表的流程图400。
图5是显示根据本发明一实施例所述的计算每一群集的对应的群内平均距离的流程图500。
【主要附图标记说明】
100~数据分群装置;
110~新闻数据库;
120~预处理模块;
130~计算模块;
140~分群模块;
150~比较模块;
160~事件数据库;
300、400、500~流程图;
S310、S320、S330、S340、S350、S360、S370、S380、S410、S420、S430、S510、S520~步骤。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宏碁股份有限公司,未经宏碁股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210305587.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种预加温螺旋输送机
- 下一篇:新型测温热电阻
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置