Spark性能优化

在使用Spark的过程中,我们通常会受限于集群的资源(比如内存、磁盘或者CPU)。为了追求更好的性能,更简洁的Spark代码,可以从以下几个方面进行实践和优化:

  • 充分利用钨丝计划(Tungsten)
  • 分析执行计划
  • 数据管理(比如持久化、广播)
  • 云相关的优化

[1]. Spark performance tuning from the trenches

[2] Spark Tuning for Enterprise System Administrators By Anya Bida

[3] Top 5 mistakes when writing Spark applications

[4] Cheat Sheet - Spark Performance Tuning

[5] Spark Tuning – A Starting Point