基于Spark的大数据聚类研究及系统实现
作者:
作者单位:

作者简介:

王磊(1993-),男,硕士研究生,研究方向:机器学习与数据挖掘,E-mail:531453268@qq.com;邹恩岑(1985-),硕士,研究方向:大数据与云计算,E-mail:zouencen@qq.com;陆悠(1977-),博士,副教授,研究方向:下一代网络、用户行为分析;曾诚(1986-),男,本科,研究方向:情报检索

通讯作者:

基金项目:

国家自然科学基金(61673290,61750110534,61728205)资助项目;苏州市科技发展计划(SYG201707,SYG201817)资助项目。


Research and Implementation of Big Data Clustering Based on Spark
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
    摘要:

    传统聚类算法由于单机内存和运算能力的限制已经不能满足当前大数据处理的要求,因而迫切需要寻找新的解决方法。针对单机内存运算问题,结合聚类算法的迭代计算特点,提出并实现了一种基于Spark平台的聚类系统。针对稀疏集和密集集两种不同类型的数据集,系统首先采用不同策略实现数据预处理;其次分析比较了不同聚类算法在Spark平台下的聚类性能,并给出最佳方案;最后利用数据持久化技术提高了计算速度。实验结果表明,所提系统能够有效满足海量数据聚类分析的任务要求。

    Abstract:

    Traditional clustering algorithms can not meet the requirements of current big data processing because of the limitations of stand-alone memory and computing power. Therefore it is urgent to find new solutions. Aiming at problems occurred in stand-alone memory calculating, combined with iterative computing features of clustering algorithms, a clustering system based on Spark platform is proposed. For the two different types of data sets, which are sparse sets and dense sets, the system firstly uses different strategies to achieve data preprocessing. Secondly, the performance of different clustering algorithms on Spark platform is analyzed and the best solution is given. Finally, the computing speed is improved with data persistence technology. Experimental results show that the proposed system can effectively meet the requirements of massive data clustering analysis.

    参考文献
    相似文献
    引证文献
引用本文

王磊, 邹恩岑, 曾诚, 奚雪峰, 陆悠.基于Spark的大数据聚类研究及系统实现[J].数据采集与处理,2018,33(6):1077-1085

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
历史
  • 收稿日期:2017-06-08
  • 最后修改日期:2017-11-13
  • 录用日期:
  • 在线发布日期: 2018-12-06