基于大数据平台hadoop的聚类算法K值优化研究Clustering Algorithm K-value Optimization Research Based on Hadoop Platform
武霞,董增寿,孟晓燕
摘要(Abstract):
针对最大最小值原则的Kmeans聚类算法运行在Hadoop平台时需要多次遍历所有数据的问题,提出了一种改进的初始聚类中心的选择算法称为M+Kmeans算法。该算法只需要遍历一次全局数据极大的缩减了算法并行运算时消耗的时间。多组实验测试结果显示,设计的M+Kmeans算法适合运行在大规模集群Hadoop平台上,并且加速比和扩展率较原始算法有明显提高。
关键词(KeyWords): 聚类;大数据;Hadoop;Kmeans
基金项目(Foundation): 山西省自然科学基金(2012011015-4)
作者(Author): 武霞,董增寿,孟晓燕
参考文献(References):
- [1]毛典辉.基于MapReduee的Canopy-kmeans改进算法[J].计算机工程与应用,2012,48(27):22-26.
- [2]朱为盛,王鹏.基于Hadoop云计算平台的大规模图像检索方案[J].计算机应用,2014,34(3):695-699.
- [3]JINSON ZHANG,MAO LINHUANG.5WS Model for Big Data Analysis and Visualization[C]∥IEEE 16th International Conference on Computational Science and Engineering,Sydney,NSW,IEEE,2013:1021-1028.
- [4]ROSANGELA DE FTIMA PEREIRA,MARCELO RISSE DE ANDRADE,ARTUR CARVALHO ZUCCHI,et al.Distributed processing from large scale sensor network using Hadoop[C]∥IEEE International Congress on Big Data,Santa Clara CA,IEEE,2013:417-418.
- [5]李伟卫,赵航,张阳,等.基于MapReduce的海量数据挖掘技术研究[J].计算机工程与应用,2013,49(20):112-117.
- [6]赵庆.基于Hadoop平台下的Canopy-Kmeans高效算法[J].2014,27(2):29-31.
- [7]WEIKUAN YU,YANDONG WANG.Design and Evaluation of Network-Levitated Merge for Hadoop Acceleration[C]∥IEEE Transactions on Parallel and Distributed Systems,Washington DC,2014:602-611.
- [8]亓开元,赵卓峰,房俊,等.针对高速数据流的大规模数据实时处理方法[J].计算机学报,2012,35(3):477-490.
- [9]汪丽,张露.基于分布式数据挖掘方法的研究与应用[J].武汉理工大学学报:信息与管理工程版,2013,35(1):40-43.
- [10]赖桃桃,冯少荣.聚类算法中的相似性度量方法研究[J].心智与计算,2008,18(2):176-181.
- [11]曲朝阳,朱莉,张士林.基于Hadoop的广域测量系统数据处理[J].电力系统自动化,2013,37(4):92-97.