[发明专利]一种网站聚类的方法及装置在审
申请号: | 201510982364.9 | 申请日: | 2015-12-23 |
公开(公告)号: | CN106909932A | 公开(公告)日: | 2017-06-30 |
发明(设计)人: | 杨诗;向园;洪春晓;吕俊 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F17/30 |
代理公司: | 北京华沛德权律师事务所11302 | 代理人: | 房德权 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网站 方法 装置 | ||
技术领域
本发明涉及数据处理技术领域,尤其涉及一种网站聚类的方法及装置。
背景技术
随着时代的发展,网站成为人们获取信息的重要渠道,各式各样的网站向人们展示各种信息。例如,音乐类网站向人们展示音乐,视频类网站向人们展示视频,新闻类网站向人们展示新闻等等。各式各样的网站采用的结构也不一样,例如有的网站采用扁平结构,有的网站采用多元化结构,这会给人们以不同的使用体验,人们会根据自己的喜欢选择对应的网站,所以网站各自的访问人数存在不同。人们对这些网站的访问数据都会被搜录到相应的大数据中后,从而便于通过对大数据包含的信息进行分析,如分析出哪些类型的网站更加受到用户的喜欢,为后续的网站建设提供数据支持。
目前,通常使用聚类算法对这类大数据进行分析,例如,在对样本集S{S1,S2,S3…Sn}中的样本进行聚类时,采用如下第一种方案:在K次迭代中,对于任意一个样本Si,求其到聚类中心集M{M1,M2…Mj…Mk}中各个聚类中心点的距离,将该Si划分到距离最近的聚类中心点所在的类集中;利用均值的方法,更新聚类中心集M中的聚类中心点;计算本次迭代产生的类集与上次迭代产生的类集之间的差值,直到该差值满足预置误差条件为止。
此方法在进行计算聚类中心点的聚类集时,需要将样本集S中的每个样本分别与聚类中心集M中的每个聚类中心点进行距离计算,即需要进行n*k次点对点的距离计算,计算量较大,耗时较长。
为了解决上述第一种方案存在的计算量大,耗时较长的问题目前现有技术中还提供了第二种方案,该方案相对于第一种方案将Si划分到距离最近的聚 类中心点所在类集的操作过程进行了改进,改进的方案具体如下:计算聚类中心集M{M1,M2…Mj…Mk}中任意两个聚类中心点之间的距离,并保存;通过三角形不等式原理,即计算Luj与2Lui之间的距离,其中,Luj为聚类中心点Mu与聚类中心点Mj之间的距离,其中,聚类中心点Mu为Si与当前距离Si最近的聚类中心点,聚类中心点Mj为当前遍历过程中待遍历的的聚类中心点,Lui为Si与聚类中心点Mu之间的距离;若Luj大于或者等于2Liu,忽略掉聚类中心点Mj,并继续遍历下一个聚类中心点,或者,遍历完成后,将该Si划分到Mu所在的类集中;若Luj小于2Liu,则计算Si与Mj之间的距离Lij,其中,Lij为样本点Si与聚类中心点Mj之间的距离;当Lij小于Lui时,设置Lui=Lij,Mu=Mj,继续遍历下一个聚类中心点,或者,遍历完成后,将该Si划分到Mu所在的类集中。
通过上述两种方案,即能够通过对大数据进行聚类而获得大数据中的聚类信息,但是,在实施第二种方案时,发明人发现其存在如下问题:在判断某个聚类中心点是否为样本的聚类中心点时,在确定出样本Si与聚类中心集M中最近的聚类中心点Mu之后,基于三角形不等式原理,将聚类中心集M中不可能是Si的聚类中心点进行丢弃,无需计算丢弃的聚类中心点与样本Si之间的距离,能够在一定程度上降低计算量,缩短计算时长;但是,对于一些聚类中心点较多,聚类更精细的需求而言,由于每次迭代过程均需要计算聚类中心点两两之间的距离,导致计算量较大,耗时较长。
因此,现有技术中聚类算法存在因每次迭代过程均需要计算聚类中心点两两之间的距离而导致计算量较大,耗时较长的技术问题。
发明内容
本发明实施例通过提供一种网站聚类的方法及装置,用以解决现有技术中聚类算法存在的因每次迭代过程均需要计算聚类中心点两两之间的距离而导致计算量较大,耗时较长的技术问题。
本发明实施例第一方面提供了一种网站聚类的方法,其特征在于,包括:
获得针对网站集群的样本集以及所述样本集的聚类中心集,所述样本集中每个样本点包括网站集群中每个网站的描述信息,所述描述信息至少包括领域信息、结构信息和访客信息;
针对所述样本集中的每一个样本点,依次遍历聚类中心集中的每一个聚类中心点,确定所述每一个样本点与所述聚类中心集中距离最近的聚类中心点,并将所述每一个样本点划分到所述聚类中心集中距离最近的聚类中心点对应的集合中,获得所述聚类中心集中的每一个聚类中心点对应的聚类集;
获得所述聚类集中样本点的平均值,并根据所述平均值更新所述聚类中心集;
根据第一聚类中心点上一次更新前后的自身差值获取第一距离的预测值;其中,所述第一距离为需要进行数据聚类的样本点与所述第一聚类中心点之间的距离,所述第一聚类中心点为聚类距离遍历中与所述样本点距离最近的聚类中心点;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510982364.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:立体模型玩具(深色花型玩具)
- 下一篇:立体模型玩具(深色单一模型玩具)