[发明专利]一种多媒体热点分析方法有效
申请号: | 201510094167.3 | 申请日: | 2015-03-03 |
公开(公告)号: | CN104715024A | 公开(公告)日: | 2015-06-17 |
发明(设计)人: | 蒋大可;何俊;莫燕峰 | 申请(专利权)人: | 湖北光谷天下传媒股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 武汉天力专利事务所 42208 | 代理人: | 冯卫平 |
地址: | 430077 湖北省武汉市*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多媒体 热点 分析 方法 | ||
技术领域
本发明涉及一种信息管理的方法,特别是一种多媒体热点分析方法。
背景技术
随着互联网技术的不断成熟,我们如今生活在一个信息爆炸的时代,媒体每天需要面对的信息量成几何数的增长,如何处理这些信息,将其分门别类并从中确定热点信息一直困扰着各大媒体,若采取人工分类的方法过于依赖操作人员的经验且工作量大,若使用软件自动分类则准确率低,且无法从中筛选出热点。
发明内容
本发明的目的在于提供一种多媒体热点分析方法,运用该方法可以将搜集到的媒体信息,按照相似度进行自动聚类,并将达到关注次数的媒体信息设定为热点。
实现本发明目的的技术方案是:一种多媒体热点分析方法,包括一个数据库,收集到的每个稿件都会附加一个消息头,根据该消息头将稿件进行分类,并以16进制的形式将稿件分门别类的存入该数据库中,其特征在于包括以下步骤:
1.1.通过消息头,按不同类型随机从数据库中抽出文件,形成文本文档群;
1.2.将16进制的文本文档群,随机分散到二维网络空间中,来对其实行并发扫描。
1.3.每次并发扫描,都将计算每次扫描过的文档与其他的文档相似的程度,来判断是否纳入热点范围;
1.4.如果其中的线程扫描文档为空时,会随机的去扫描其中一个与相邻的相似度较低的文档,如果其线程处于闲置状态时,并且其处理的文档与附近的线程的处理文档相似度较高,该线程会放下其处理的文档;
1.5.通过循环操作步骤1.3、1.4,相似或者相关的文档,将通过不断的群体相似度被聚集在同一个区域,一次筛选完成;
1.6.初始化连接权值w,学习率a,邻域半径Nbo,将需要扫描的文本文档设定一个范围,连接权值w代表每个线程;
1.7.对所有范围内的文本取样;
1.8.将文档分词,并构建向量空间模型,将文档表示成可计算的矩阵;
1.9.将取样的文本文档进行分词区别分类,分别分入到构建的向量空间模型中;
1.10. 将每个向量空间模型中的文本文档,通过欧氏距离来比较,计算连接权向量与输入文档之间的距离,值最小的神经元便是获胜神经元;
1.11.更新获胜神经元及其邻域内所有神经元的连接权值,而邻域外的神经元的连接权值保持不变;
1.12.调整学习率a和邻域半径Nbo,为了保证算法的收敛,学习率的取值一般在0到1之间,且随着学习代数的增加而递减;邻域半径也随着学习代数的增加而递减,最后只有获胜结点在学习;
1.13.重复步骤1.7~1.12,直至算法收敛或达到最大迭代次数为止,以得到热点数据;
1.14.通过得出的热点数据,与其他媒体的版面进行对比,比较其重复度,重复度最高的便是最终的热点数据;
1.15.通过得出的最终热点数据,将其排序,并分色显示,通过每个消息头中的不同ip数据,生成信息地图,将已经分好色的热点,显示在地图上,让用户清楚、明朗的了解到现今的热点。
而且步骤1.2~1.5采用的是基于蚁群文档聚类算法,具体计算步骤如下:
2.1.算法初始化阶段,文本集中的文档随机的被映射到一个二维平面的网格空间中,所遵循的映射规则是每一个网格中只能容纳唯一一个文档,也就是说,不可以重叠的将不同文档映射到同一个网格中,同时一定数量的蚂蚁被散布到该二维平面上;
2.2.计算群体相似度密度,每个单一的蚂蚁随机的在二维网格空间中移动,选择一个文档,然后拾起这篇文档,并携带着它在二维网格空间中随机的移动,每移动一次,每只蚂蚁都要计算它所携带的文档或者它所在网格中的文档与周围环境的群体相似度,用以决定是否拾起或者放下该文档,若一只蚂蚁所在的位置为r,它所在环境的群体相似度密度f(oi)定义如下:
其中oi∈Nerighs×s(r)表示的是文档在位置r的s×s边长的邻域,d(oi, oj) 表示两篇文档 oi与oj 之间的文本距离,α是群体相似度系数,也叫做相异度因子,它的大小不仅会影响最终的蚁群聚类的簇数,还会影响到算法的收敛速度,采用余弦相似度公式作为文档间的相似度计量:
其中,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北光谷天下传媒股份有限公司;,未经湖北光谷天下传媒股份有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510094167.3/2.html,转载请声明来源钻瓜专利网。